2024-06-24
【學術亮點-頂級會議論文】基於知識圖譜與檢索強化預訓練之干擾選項生成研究
Font Size
Small
Middle
Large
【學術亮點-頂級會議論文】基於知識圖譜與檢索強化預訓練之干擾選項生成研究
AI core Technology: Advanced Research and Resource Integration Platform or AI Technology
【Department of Computer Science and Engineering / Yao-Chung Fan / Associate Professor】
核心技術:AI核心技術之進階研究與資源整合平台【資訊工程學系范耀中副教授】
上架日期:2024/6/19
發表日期:2024/8/11-8/16
AI core Technology: Advanced Research and Resource Integration Platform or AI Technology
【Department of Computer Science and Engineering / Yao-Chung Fan / Associate Professor】
核心技術:AI核心技術之進階研究與資源整合平台【資訊工程學系范耀中副教授】
論文篇名 | 英文:Enhancing Distractor Generation for Multiple-Choice Questions with Retrieval Augmented Pretraining and Knowledge Graph Integration 中文:基於知識圖譜與檢索強化預訓練之干擾選項生成研究 |
期刊名稱 | Findings of the Association for Computational Linguistics: ACL 2024 (指標清單期刊) |
發表年份, 卷數, 起迄頁數 | The 62nd Annual Meeting of the Association for Computational Linguistics (ACL 2024) will take place in Bangkok, Thailand from August 11th to 16th, 2024 |
作者 | Han Cheng Yu, Yu An Shih, Kin Man Law, KaiYu Hsieh, Yu Chen Cheng, Hsin Chih Ho, Zih An Lin, Wen-Chuan Hsu, Yao-Chung Fan(范耀中)∗ |
DOI | https://aclanthology.org/2024.findings-acl.655/ |
中文摘要 | 於干擾選項生成研究中,我們的研究提出了兩個關鍵設計。首先,我們提出「檢索增強預訓練」,這涉及對語言模型進行預訓練的精煉,讓其更貼近干擾選項生成的下游任務。其次,我們探索了整合知識圖譜來提升干擾選項生成的表現。透過在標準數據集上的實驗,我們展示了我們的模型明顯超越了目前最先進的結果。我們表現最佳的模型將F1@3分數從MCQ數據集的14.80提升到16.47,從Sciq數據集的15.92提升到16.50。 |
英文摘要 | In this paper, we tackle the task of distractor generation (DG) for multiple-choice questions. Our study introduces two key designs. First, we propose \textit{retrieval augmented pretraining}, which involves refining the language model pretraining to align it more closely with the downstream task of DG. Second, we explore the integration of knowledge graphs to enhance the performance of DG. Through experiments with benchmarking datasets, we show that our models significantly outperform the state-of-the-art results. Our best-performing model advances the F1@3 score from 14.80 to 16.47 in MCQ dataset and from 15.92 to 16.50 in Sciq dataset. |
發表成果與AI計畫研究主題相關性 | 透過知識圖譜與檢索強化預訓練來強化生成式語言模型是目前生成式AI研究的關注重點。我們提出的方法,有效地提升干擾選項生成任務,將F1@3分數從MCQ數據集的14.80提升到16.47,從Sciq數據集的15.92提升到16.50。這樣的成果為目前世界最佳的效能。 |
發表日期:2024/8/11-8/16