ETH 和斯坦福联手推出 MIRIAD:580 万对高质量数据集提升医疗 AI 准确性
瑞士联邦理工学院(ETH Zurich)、斯坦福大学、梅奥诊所等机构的研究人员近日联合推出了一款名为MIRIAD的大规模医疗问答数据集,旨在提高大型语言模型(LLM)在医学决策中的准确性和可靠性。该数据集包含超过580万对高质量的医疗指令与响应配对,每对都经过精心重新表述并基于同行评议的文献进行验证。 尽管LLM在通用语言任务中表现突出,但在需要最新和精准知识的领域如医学方面,它们常常会产生不准确的信息。为了缓解这一问题,研究人员提出了一种基于外部医学知识检索(RAG)的方法,但现有的RAG系统大多依赖于一般性的文本嵌入和标准向量数据库,这些数据结构并不针对医学内容进行优化,导致LLM无法有效地解析和利用这些信息。此外,现有的医疗数据集如PubMedQA或MedQA规模较小,形式过于结构化或多选题,缺乏开放性和现实应用场景所需的真实回答形式。 为了建立MIRIAD,研究团队首先从S2ORC语料库中筛选出894000篇医学文章,将它们分解为干净的句子段落,排除了过长或噪声较大的内容。随后,利用具有结构化提示的LLM生成了1000多万个问答对,并通过规则过滤进一步精简至580万个。一个定制训练的分类器,基于GPT-4标注的数据,进一步筛选出440万个高质量问答对。最后,一组人类医学专家对样本进行了验证,确认其准确性、相关性和文献支持。在此基础上,团队还开发了MIRIAD-Atlas,一种互动式2D地图工具,通过嵌入技术和降维将相关内容按主题和学科聚类,便于用户探索和利用。 测试结果显示,结合MIRIAD数据集的LLM在医学问答任务中的准确率提升了6.7%。尤其值得一提的是,在相同检索内容量的情况下,MIRIAD相比未结构化的数据显著提高了模型性能。此外,使用MIRIAD训练的检索模型也表现出更好的检索质量,F1评分提升了22.5%到37%,尤其是在识别语言模型产生的错误信息方面表现出明显优势。 MIRIAD不仅是一个庞大的数据集,也是一个功能强大的工具。MIRIAD-Atlas是一个交互式的2D地图,覆盖了56个医学领域,用户可以轻松浏览和互动,发现不同领域的相关知识。这种结构化的、基于验证文献的内容呈现方式,使得信息更加精确可靠,支持广泛的实际医疗应用。 业内专家认为,MIRIAD的推出是医疗AI领域的一个重要里程碑。它不仅大幅提高了LLM在医疗领域的准确性和可信度,还提供了一个用户友好的平台,促进了医学知识的共享和利用。该数据集的高质量构建和严格的验证流程,也为未来类似项目的开发树立了标杆。ETH Zurich和斯坦福大学在医疗AI领域的持续合作,充分展示了学术界对解决实际医疗问题的承诺和创新能力。