大型语言模型编码临床知识

大型语言模型(LLMs)在自然语言理解与生成方面展现出令人瞩目的能力,但其在医疗与临床应用中的质量要求极为严苛。目前,对模型临床知识的评估大多依赖于有限基准集上的自动化测试,尚缺乏统一标准来全面评估模型在多种任务中的预测与推理能力。为此,我们提出了MultiMedQA——一个整合了六个现有公开问答数据集的综合性基准,涵盖专业医学考试、科研问题以及面向患者的日常咨询;同时,我们还构建了HealthSearchQA,这是一个全新的自由文本形式的医学问答数据集,其问题来源于真实网络搜索行为。我们提出了一套多维度的人工评估框架,用于系统评价模型回答的质量,涵盖事实准确性、表述精确性、潜在危害性以及偏见等多个方面。在此基础上,我们对PaLM(一款5400亿参数的大型语言模型)及其指令微调版本Flan-PaLM在MultiMedQA上的表现进行了评估。通过结合多种提示策略,Flan-PaLM在MultiMedQA中的所有多项选择类数据集上均达到了当前最优水平(包括MedQA、MedMCQA、PubMedQA以及MMLU临床主题子集),尤其在MedQA(美国医师执照考试题)上取得了67.6%的准确率,较此前最优结果提升超过17%。然而,人工评估揭示了Flan-PaLM在回答质量方面仍存在若干关键缺陷。为解决这一问题,我们提出“指令提示微调”(instruction prompt tuning)方法——一种参数高效的技术,仅需少量示例即可将大型语言模型适配至新领域。基于该方法训练出的模型名为Med-PaLM,其表现令人鼓舞,但相较于临床专业人员仍存在一定差距。我们的研究发现,随着模型规模的扩大以及指令提示微调的引入,模型在医学理解能力、知识记忆准确率和医学推理能力方面均有显著提升,这表明大型语言模型在医疗领域的应用具有巨大潜力。然而,通过人工评估我们亦识别出当前模型的重要局限性,进一步强调了构建系统化评估框架与持续优化方法的重要性,以推动安全、可靠、有益的大型语言模型在临床场景中的落地应用。