17日前

MedConceptsQA:オープンソース医療概念QAベンチマーク

Ofir Ben Shoham, Nadav Rappoport
MedConceptsQA:オープンソース医療概念QAベンチマーク
要約

本稿では、医療概念に関する質問応答を対象としたオープンソースのベンチマーク「MedConceptsQA」を提案する。このベンチマークは、診断、処置、薬剤など、異なる用語体系にまたがる多様な医療概念に関する質問を含んでおり、難易度を「易しい」「中程度」「難しい」の3段階に分類している。さまざまな大規模言語モデル(Large Language Models, LLMs)を用いてベンチマークの評価を実施した結果、医療データに基づいて事前学習された臨床用大規模言語モデルであっても、本ベンチマークにおける正解率はランダム推測に近い水準にとどまっていることが明らかになった。一方で、GPT-4は臨床用大規模言語モデルと比較して、ゼロショット学習では約27%、フェイショット学習では約37%の絶対的な精度向上を達成している。本ベンチマークは、大規模言語モデルが医療概念をどの程度理解し、推論できるかを評価する上で貴重なリソースとなる。詳細は、https://huggingface.co/datasets/ofir408/MedConceptsQA にて公開されている。

MedConceptsQA:オープンソース医療概念QAベンチマーク | 最新論文 | HyperAI超神経