HyperAIHyperAI
vor 2 Monaten

Können allgemeine Grundmodelle spezialisierte Feinabstimmung übertrumpfen? Fallstudie in der Medizin

Harsha Nori; Yin Tat Lee; Sheng Zhang; Dean Carignan; Richard Edgar; Nicolo Fusi; Nicholas King; Jonathan Larson; Yuanzhi Li; Weishung Liu; Renqian Luo; Scott Mayer McKinney; Robert Osazuwa Ness; Hoifung Poon; Tao Qin; Naoto Usuyama; Chris White; Eric Horvitz
Können allgemeine Grundmodelle spezialisierte Feinabstimmung übertrumpfen? Fallstudie in der Medizin
Abstract

Allgemeine Grundmodelle wie GPT-4 haben überraschende Fähigkeiten in einer Vielzahl von Bereichen und Aufgaben gezeigt. Dennoch herrscht die weit verbreitete Annahme, dass sie den spezialisierten Fähigkeiten von feingetune-Modellen nicht gewachsen sind. Zum Beispiel haben bisherige Untersuchungen zu medizinischen Kompetenzbenchmarks in der Regel auf domänenbezogenem Training aufgebaut, wie dies bei Bemühungen um BioGPT und Med-PaLM der Fall war. Wir bauen auf einer früheren Studie zu den Fähigkeiten von GPT-4 bei medizinischen Herausforderungsbenchmarks ohne besonderes Training auf. Anstatt einfache Prompts zu verwenden, um die unveränderten Fähigkeiten des Modells hervorzuheben, führen wir eine systematische Exploration des Prompt Engineering durch. Wir stellen fest, dass innovative Prompting tiefer gehende spezialisierte Fähigkeiten freisetzen kann und zeigen, dass GPT-4 leicht die bisher besten Ergebnisse für medizinische Benchmarks übertrifft. Die Prompting-Methoden, die wir untersuchen, sind allgemeiner Natur und machen keinen spezifischen Gebrauch von Branchenkenntnissen, was das Bedürfnis nach expertengeneriertem Inhalt eliminiert. Unser experimentelles Design kontrolliert sorgfältig das Überanpassen während des Prompt Engineering-Prozesses. Wir stellen Medprompt vor, das auf einer Kombination mehrerer Prompting-Strategien basiert. Mit Medprompt erreicht GPT-4 Spitzenwerte auf allen neun Benchmark-Datensätzen im MultiMedQA-Suite. Die Methode übertrifft führende spezialisierte Modelle wie Med-PaLM 2 erheblich mit einem Bruchteil der notwendigen Modellaufrufe. Das Steuern von GPT-4 mit Medprompt reduziert den Fehlerquoten im MedQA-Datensatz um 27 % gegenüber den bislang besten Methoden, die mit spezialisierten Modellen erzielt wurden, und überschreitet erstmals einen Score von 90 %. Darüber hinaus zeigen wir die Leistungsfähigkeit von Medprompt zur Verallgemeinerung auf andere Bereiche und liefern Beweise für die breite Anwendbarkeit des Ansatzes durch Studien der Strategie in Prüfungen aus Elektrotechnik, Maschinellem Lernen, Philosophie, Buchhaltung, Rechtswissenschaften, Pflege und klinischer Psychologie.