2026-06-22
【學術亮點-頂級會議論文】CGPT:以叢集引導之部分表格搭配大型語言模型生成監督訊號的表格檢索方法
Font Size
Small
Middle
Large
【學術亮點-頂級會議論文】CGPT:以叢集引導之部分表格搭配大型語言模型生成監督訊號的表格檢索方法
AI core Technology: Advanced Research and Resource Integration Platform or AI Technology【Department of Computer Science and Engineering / Yao-Chung Fan / Professor】
核心技術:AI核心技術之進階研究與資源整合平台資訊工程學系范耀中教授】
上架日期:2025/4/12
AI core Technology: Advanced Research and Resource Integration Platform or AI Technology【Department of Computer Science and Engineering / Yao-Chung Fan / Professor】
核心技術:AI核心技術之進階研究與資源整合平台資訊工程學系范耀中教授】
| 論文篇名 | 英文:CGPT: Cluster-Guided Partial Tables with LLM-Generated Supervision for Table Retrieval 中文:CGPT:以叢集引導之部分表格搭配大型語言模型生成監督訊號的表格檢索方法 |
| 期刊名稱 | WWW '26: Proceedings of the ACM Web Conference 2026(指標清單會議) |
| 發表年份, 卷數, 起迄頁數 | In Proceedings of the ACM Web Conference 2026 (WWW '26) , pp.8585–8588, Dubai United Arab Emirates from April 13 - 17, 2026. |
| 作者 | Tsung-Hsiang Chou; Chen-Jui Yu; Shui-Hsiang Hsu; Yao-Chung Fan(范耀中)∗ |
| DOI | 10.1145/3774904.3792916 |
| 中文摘要 | 通用型嵌入模型在文字檢索上已展現優異效能,但於表格檢索仍不理想,因為高度結構化的內容會造成語義壓縮與查詢—表格的不匹配。近期以大型語言模型(LLM)為基礎的檢索增強方法雖透過生成合成查詢來緩解此問題,卻多仰賴啟發式的部分表格選取,且鮮少將這些合成查詢作為監督訊號以改進嵌入模型本身。我們提出 CGPT,一套透過 LLM 生成監督訊號來強化表格檢索的訓練框架。CGPT 以 K-means 對表格列進行叢集,並跨叢集抽樣以擴大語義涵蓋範圍,藉此建構語義多樣的部分表格;接著由 LLM 為這些部分表格生成合成查詢,並用於難負例對比微調以精煉嵌入模型。在四個公開基準(MimoTable、OTTQA、FetaQA、E2E-WTQ)上的實驗顯示,CGPT 穩定優於既有基線,平均 R@1 提升 16.54%。在跨領域評估下,CGPT 進一步展現良好的跨領域泛化能力,且即使改用較小的 LLM 生成合成查詢仍維持有效。結果顯示,語義導向的部分表格建構結合來自 LLM 生成監督的對比訓練,為大規模表格檢索提供了有效且可擴展的範式。 |
| 英文摘要 | General-purpose embedding models have demonstrated strong performance in text retrieval but remain suboptimal for table retrieval, where highly structured content leads to semantic compression and query–table mismatch. Recent LLM-based retrieval augmentation methods mitigate this issue by generating synthetic queries, yet they often rely on heuristic partial-table selection and seldom leverage these synthetic queries as supervision to improve the embedding model. We introduce CGPT, a training framework that enhances table retrieval through LLM-generated supervision. CGPT constructs semantically diverse partial tables by clustering table instances using K-means and sampling across clusters to broaden semantic coverage. An LLM then generates synthetic queries for these partial tables, which are used in hard-negative contrastive fine-tuning to refine the embedding model. Experiments across four public benchmarks (MimoTable, OTTQA, FetaQA, and E2E-WTQ) show that CGPT consistently outperforms the existing baselines with an average R@1 improvement of 16.54%. Under cross-domain evaluation, CGPT further demonstrates strong cross-domain generalization and remains effective even when using smaller LLMs for synthetic query generation. These results indicate that semantically guided partial-table construction, combined with contrastive training from LLM-generated supervision, provides an effective and scalable paradigm for large-scale table retrieval. |
| 發表成果與AI計畫研究主題相關性 | 當知識以大量結構化表格儲存時,通用嵌入模型容易因語義壓縮而檢索失準。農業領域常有這類資料,像是病蟲害藥效試驗表、登記農藥稀釋倍數與安全採收期、品種抗病性評比、環境閾值對照等,往往是大型且異質的表格。CGPT 以 K-means 叢集建構語義多樣的部分表格,並將 LLM 生成的合成查詢回饋為監督訊號精煉嵌入模型,能在不破壞行列結構的前提下定位查詢對應的資料列。論文實證平均 R@1 提升 16.54%,並具備跨領域泛化能力,代表同一套方法有機會遷移到農業表格而不需大量重新標註。這類能力對本中心智慧農業診斷系統在藥效與合規用藥資料的查詢精確度與證據可追溯性上應有助益。 |