2025-08-21
【學術亮點-頂級會議論文】以部分表格的問題生成改進表格檢索
字體大小
小
中
大
【學術亮點-頂級會議論文】以部分表格的問題生成改進表格檢索
Improving Table Retrieval with Question Generation from Partial Tables【Department of Computer Science and Engineering / Yao-Chung Fan / Professor】
核心技術:AI核心技術之進階研究與資源整合平台【資訊工程學系范耀中教授】
上架日期:2025/8/1
Improving Table Retrieval with Question Generation from Partial Tables【Department of Computer Science and Engineering / Yao-Chung Fan / Professor】
核心技術:AI核心技術之進階研究與資源整合平台【資訊工程學系范耀中教授】
論文篇名 | 英文:Improving Table Retrieval with Question Generation from Partial Tables 中文:以部分表格的問題生成改進表格檢索 |
期刊名稱 | The 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025) (指標清單會議) |
發表年份, 卷數, 起迄頁數 | In Proceedings of the 4th Table Representation Learning Workshop, pages 217–228, Vienna, Austria from July 31th, 2025. Association for Computational Linguistics. |
作者 | Hsing-Ping Liang; Che-Wei Chang; Yao-Chung Fan(范耀中)∗ |
DOI | 10.18653/v1/2025.trl-1.19 |
中文摘要 | 近年來,表格上的開放域問答多採用「檢索—閱讀」(Retriever–Reader)架構並廣泛結合 LLMs。既有研究已有效運用 LLMs 處理閱讀器(Reader)端的複雜推理需求,例如 text-to-text、Text-to-SQL 與多跳推理。相較之下,檢索器(Retriever)端多著重於最佳化查詢表徵——例如訓練檢索器依據問題檢索相關表格,或從問題中選取關鍵詞以匹配表格片段;然而,如何在向量嵌入空間中強化「表格本身」的表徵以更好地與問題對齊,卻較少受到關注。為解決此一缺口,我們提出 QGpT(Question Generation from Partial Tables),一種簡潔而有效的方法:利用 LLM 針對表格的小部分產生合成問題,模擬使用者在檢視該表格時可能提出的查詢。接著,將這些生成的問題與用於生成的部分表格片段進行聯合嵌入,以增強與使用者查詢的語義對齊。此法無需對整張表格進行嵌入,便能在多個基準測試上,對於稠密檢索器與「延遲互動」(late interaction)檢索器皆顯著提升檢索效能。 |
英文摘要 | Recent advances in open-domain question answering over tables have widely adopted large language models (LLMs) under the Retriever-Reader architecture. Prior works have effectively leveraged LLMs to tackle the complex reasoning demands of the Reader component, such as text-to-text, text-to-SQL, and multi-hop reasoning. In contrast, the Retriever component has primarily focused on optimizing the query representation—training retrievers to retrieve relevant tables based on questions, or to select keywords from questions for matching table segments. However, little attention has been given to enhancing how tables themselves are represented in embedding space to better align with questions. To address this, we propose QGpT (Question Generation from Partial Tables), a simple yet effective method that uses an LLM to generate synthetic questions based on small portions of a table. These questions are generated to simulate how a user might query the content of the table currently under consideration. The generated questions are then jointly embedded with the partial table segments used for generation, enhancing semantic alignment with user queries. Without the need to embed entire tables, our method significantly improves retrieval performance across multiple benchmarks for both dense and late-interaction retrievers. |
發表成果與AI計畫研究主題相關性 | 這項研究與 ACL 社群近年關注的「檢索增強問答(RAG)」「資料增強」「領域自適應」高度契合。我們提出的 QGpT(由部分表格生成問題)屬於檢索側的資料增強:不改動 Reader,也不需昂貴標註,而是從表格的局部片段自動生成「模擬使用者查詢」的問題,與來源片段一起聯合嵌入,強化表格在嵌入空間中的語義可檢索性。此做法特別適合農業情境——實務上大量知識以表格存在(如作物栽培曆、病蟲害藥劑與安全採收期、土壤營養與施肥建議、灌溉與氣候監測、殘留容許標準、品種性狀比較等),且查詢常跨表、跨來源、跨季節。導入 QGpT 可在不嵌入整張表的前提下,顯著提升 dense 與 late-interaction 檢索器的 top-k recall 與端到端 QA 準確度,對低資源領域尤具成本效益。計畫上,我們將以臺灣農業部及校內農業資料庫為核心,建立農業表格 QA 基準、評估多表檢索與問題分解的效益,並針對不同檢索器(如雙塔/晚交互)給出消融分析與錯誤類型學,預計釋出程式碼與資料以符合 ACL(或 Findings)對可重現性的要求,同時直接服務農民與推廣單位的知識檢索需求(例如「九月中部甜椒氮肥量」「柑橘潛葉蠅危害閾值」「白粉病藥劑輪替」等實務查詢)。 |