2 个月前
通用基础模型能否超越专用调优?医学案例研究
Harsha Nori; Yin Tat Lee; Sheng Zhang; Dean Carignan; Richard Edgar; Nicolo Fusi; Nicholas King; Jonathan Larson; Yuanzhi Li; Weishung Liu; Renqian Luo; Scott Mayer McKinney; Robert Osazuwa Ness; Hoifung Poon; Tao Qin; Naoto Usuyama; Chris White; Eric Horvitz

摘要
通用基础模型如GPT-4在各种领域和任务中展现了令人惊讶的能力。然而,普遍认为它们无法匹敌经过微调的专门模型的专业能力。例如,迄今为止大多数关于医学能力基准测试的探索都依赖于特定领域的训练,这在BioGPT和Med-PaLM的研究中得到了体现。我们在之前的一项研究基础上,探讨了在没有特殊训练的情况下GPT-4在医学挑战基准测试中的能力。我们不仅使用简单的提示来展示模型的开箱即用能力,而是进行了系统的提示工程探索。研究发现,创新性的提示方法可以解锁更深层次的专业能力,并且GPT-4轻松超越了此前在医学基准测试中的领先结果。我们所探索的提示方法具有通用性,无需利用特定领域的专业知识,从而消除了对专家策划内容的需求。我们的实验设计严格控制了提示工程过程中的过拟合问题。我们引入了Medprompt,该方法基于多种提示策略的组合。通过Medprompt,GPT-4在MultiMedQA套件中的所有九个基准数据集上均达到了最先进的结果。与当前领先的专门模型(如Med-PaLM 2)相比,Medprompt引导下的GPT-4仅需少量的模型调用次数就能显著提高性能,在MedQA数据集上的错误率降低了27%,并且首次超过了90%的得分。此外,我们还展示了Medprompt在其他领域的泛化能力,并通过对其在电气工程、机器学习、哲学、会计、法律、护理和临床心理学考试中的应用研究提供了广泛的适用性证据。