基于大语言模型的专家级医学问答

近年来,人工智能(AI)系统在一系列“重大挑战”任务中取得了里程碑式进展,涵盖围棋、蛋白质折叠等领域。能够检索医学知识、进行推理并回答医学问题,其水平可与临床医生相媲美,长期以来被视为一项关键的“重大挑战”。大型语言模型(LLMs)在医学问答任务中推动了显著进展。Med-PaLM 是首个在符合美国执业医师资格考试(USMLE)风格的题目上取得“及格”分数的模型,在 MedQA 数据集上的得分为 67.2%。然而,此前的研究表明,该模型与临床医生的回答相比仍存在明显差距,显示出巨大的改进空间。为此,本文提出 Med-PaLM 2,通过融合基础语言模型的升级(PaLM 2)、医学领域微调(fine-tuning)以及新型提示策略(包括一种创新的集成优化方法),有效弥合了这些差距。Med-PaLM 2 在 MedQA 数据集上的表现最高达到 86.5%,相较于 Med-PaLM 提升超过 19 个百分点,刷新了当前最佳水平。此外,我们在 MedMCQA、PubMedQA 以及 MMLU 临床主题数据集上也观察到,其性能接近或超越了现有最先进水平。我们针对长篇医学问题开展了详尽的人工评估,从多个与临床应用密切相关维度进行分析。在对 1066 个面向消费者的医学问题进行成对比较时,临床医生在九个维度中的八个上更偏好 Med-PaLM 2 的回答,优于医生自身生成的回答(p < 0.001)。此外,在新引入的 240 个“对抗性”长篇问题数据集上,Med-PaLM 2 在所有评估维度上均显著优于 Med-PaLM(p < 0.001),充分揭示了其在探测大语言模型局限性方面的优势。尽管仍需进一步研究以验证这些模型在真实临床环境中的实际有效性,但上述结果表明,医学问答系统正以前所未有的速度向达到临床医生水平的能力迈进。