
摘要
我们提出 MedConceptsQA,一个专用于医学概念问答的开源基准测试数据集。该基准涵盖多种医学概念,包括诊断、操作和药物等不同领域的术语,并将问题按难度划分为三个等级:简单、中等和困难。我们利用多种大语言模型对这一基准进行了评估。研究结果表明,尽管这些临床领域预训练的大语言模型在医学数据上进行了预训练,但在该基准上的准确率仍接近随机猜测水平。相比之下,GPT-4 在零样本(zero-shot)学习和少样本(few-shot)学习场景下,分别实现了约 27% 和 37% 的绝对平均性能提升。本基准为评估大语言模型在医学概念理解与推理能力方面提供了重要资源。该数据集已公开,可通过 Hugging Face 获取:https://huggingface.co/datasets/ofir408/MedConceptsQA