16日前
MedMCQA:医療分野における質問応答のための大規模マルチサブジェクトマルチチョイスデータセット
Ankit Pal, Logesh Kumar Umapathi, Malaikannan Sankarasubbu

要約
本稿では、現実の医療専門職入試問題に対応するための新しい大規模な複数選択式問題解答(MCQA)データセット「MedMCQA」を紹介する。本データセットには、21の医学分野および2,400以上の医療分野トピックをカバーする、AIIMSおよびNEET PG入試問題として使用される194,000件以上の高品質な複数選択問題が収録されており、平均トークン長は12.77であり、高いトピック多様性を有している。各サンプルには、問題文、正解および他の選択肢が含まれており、モデルが幅広い医学分野およびトピックにわたり10以上の推論能力を発揮できるかどうかを検証するため、より深い言語理解を必要とする構成となっている。本研究では、上記の情報に加えて、各問題の解説も詳細に提示している。