大型语言模型在生物医学语言理解与推理基准上的性能评估

背景大型语言模型(LLMs)在理解和生成类人文本方面展现出强大能力,这引发了对其在医学及临床研究领域应用潜力的广泛讨论。然而,目前尚缺乏足够数据支持针对特定应用场景的循证决策。方法本研究评估并比较了四种通用型语言模型(GPT-4、GPT-3.5-turbo、Flan-T5-XXL 和 Zephyr-7B-Beta)以及一个面向医疗领域的专用模型(MedLLaMA-13B),在涵盖六类常见医学自然语言处理任务的13个数据集上表现——这些数据集共同构成“生物医学语言理解与推理基准”(Biomedical Language Understanding and Reasoning Benchmark, BLURB)。六类任务包括:命名实体识别(NER)、关系抽取、PICO(研究人群、干预措施、对照组与结局指标)结构化提取、句子相似度判断、文档分类以及问答任务。所有模型均未进行任何修改,其性能通过一系列提示策略(以系统化、可复用的提示框架形式组织)进行评估,并采用BLURB定义的标准、任务特定的评价指标。结果在所有任务中,GPT-4 表现最优,其次为 Flan-T5-XXL 和 GPT-3.5-turbo,而 Zephyr-7B-Beta 和 MedLLaMA-13B 表现相对较弱。针对 GPT-4 和 Flan-T5-XXL 的最优提示策略,其在 PubMedQA 任务上的表现超越了此前报道的最佳结果。尽管 MedLLaMA-13B 为领域专用模型,其在多数任务中得分较低,但在问答任务中表现突出。研究发现,对任务描述进行策略性提示优化具有显著影响,且在提示中加入与输入文本语义相似的示例,可 consistently 提升模型性能。结论本研究结果为大型语言模型在医学领域的应用潜力提供了实证支持,同时强调了在任何具体应用场景中采纳 LLM 之前,必须开展严谨、系统的评估。未来研究应持续探索如何将这些新兴技术适配于医疗环境,结合人类专业判断,并通过质量控制机制加以强化,以推动医疗领域中大型语言模型的负责任创新。