11日前

FrenchMedMCQA:医療分野向けのフランス語多肢選択形式質問応答データセット

Yanis Labrak, Adrien Bazoge, Richard Dufour, Mickael Rouvier, Emmanuel Morin, Béatrice Daille, Pierre-Antoine Gourraud
FrenchMedMCQA:医療分野向けのフランス語多肢選択形式質問応答データセット
要約

本論文では、フランス語における医療分野向けの複数選択式質問回答(MCQA)データセットとして、初めて公開された「FrenchMedMCQA」を紹介する。このデータセットは、フランスの薬学専門資格試験の実際の問題から抽出された3,105問から構成されており、単一正解と複数正解を併用した形式となっている。データセットの各インスタンスには識別子、質問文、5つの選択肢、および手動で修正された正解が含まれる。さらに、このMCQAタスクを自動処理するための初期ベースラインモデルを提案し、現状の性能を報告するとともに、タスクの難易度を明らかにする。結果の詳細な分析から、医療分野やMCQAタスクに特化した表現(表現学習)が必要であることが示された。具体的には、FrenchMedMCQAはフランス語で構成されているにもかかわらず、汎用的なフランス語モデルよりも、英語の専門モデルが優れた性能を示した。本研究で開発したコーパス、モデル、およびツールは、オンライン上で公開されている。

FrenchMedMCQA:医療分野向けのフランス語多肢選択形式質問応答データセット | 最新論文 | HyperAI超神経