11 天前

大语言模型能否对医学问题进行推理？

Valentin Liévin, Christoffer Egeberg Hother, Andreas Geert Motzfeldt, Ole Winther

摘要

尽管大型语言模型（LLMs）常常能够生成令人印象深刻的输出，但它们在需要强推理能力与专业领域知识的真实场景中的表现仍不明确。为此，我们旨在探究闭源模型（如GPT-3.5）与开源模型（如LLaMA-2）在回答并推理复杂现实世界问题方面的应用潜力。研究聚焦于三个主流医学基准测试：MedQA-USMLE、MedMCQA 和 PubMedQA，并考察多种提示策略，包括思维链（Chain-of-Thought, CoT，即逐步思考）、少样本学习（few-shot）以及检索增强（retrieval augmentation）。基于对生成的思维链（CoT）进行专家标注的结果，我们发现InstructGPT通常具备良好的阅读理解、推理能力以及对专家知识的回忆能力。最后，通过利用提示工程领域的最新进展（如少样本提示与集成方法），我们证明GPT-3.5不仅能够生成校准良好的预测分布，还在三项基准测试中均达到了通过标准：MedQA-USMLE得分为60.2%，MedMCQA为62.7%，PubMedQA达78.2%。与此同时，开源模型正迅速缩小差距：LLaMA-2 70B版本也以62.5%的准确率通过了MedQA-USMLE测试。