11 天前
FrenchMedMCQA:面向医学领域的法语多项选择题问答数据集
Yanis Labrak, Adrien Bazoge, Richard Dufour, Mickael Rouvier, Emmanuel Morin, Béatrice Daille, Pierre-Antoine Gourraud

摘要
本文介绍了FrenchMedMCQA,这是首个面向医学领域的公开可获取的法语多选题问答(MCQA)数据集。该数据集包含3,105道题目,均来源于法国药学专业资格考试的真实试题,题目类型涵盖单选与多选题。每个数据实例包含唯一标识符、问题本身、五个备选答案及其人工标注的正确答案。为评估该任务的当前技术水平,我们提出了首个基线模型,用于自动处理该MCQA任务,以反映现有性能并揭示该任务的挑战性。对实验结果的详细分析表明,必须采用针对医学领域或MCQA任务优化的表示方法:在本研究中,尽管FrenchMedMCQA为法语文本,但使用英语专业领域模型所取得的效果优于通用法语模型。相关语料库、模型及工具均已公开上线,供研究者使用。