Können große Sprachmodelle über medizinische Fragen reasoning durchführen?

Obwohl große Sprachmodelle (LLMs) oft beeindruckende Ergebnisse liefern, ist unklar, wie sie sich in realen Szenarien verhalten, die starke Schlussfolgerungsfähigkeiten und fachliches Expertenwissen erfordern. Wir untersuchten, ob nahezu geschlossene und offene Quellmodelle (wie GPT-3.5, LLama-2 usw.) zur Beantwortung und zum Schlussfolgern schwieriger, auf der realen Welt basierender Fragen eingesetzt werden können. Dabei konzentrieren wir uns auf drei etablierte medizinische Benchmark-Datensätze (MedQA-USMLE, MedMCQA und PubMedQA) sowie verschiedene Prompting-Szenarien: Chain-of-Thought (CoT, Schritt-für-Schritt-Überlegung), Few-Shot-Lernen und Retrieval-Verstärkung. Auf Basis einer Expertenannotation der generierten CoTs stellten wir fest, dass InstructGPT häufig in der Lage ist, Informationen korrekt zu lesen, logisch zu verarbeiten und fachliches Expertenwissen abzurufen. Schließlich zeigten wir durch den Einsatz fortschrittlicher Prompting-Techniken (Few-Shot- und Ensemble-Methoden), dass GPT-3.5 nicht nur kalibrierte Vorhersageverteilungen liefert, sondern zudem auf drei Datensätzen die Bestehensgrenze erreicht: MedQA-USMLE mit 60,2 %, MedMCQA mit 62,7 % und PubMedQA mit 78,2 %. Offenquellmodelle schließen die Lücke zunehmend: Llama-2 70B erreichte ebenfalls mit 62,5 % die Bestehensgrenze im MedQA-USMLE.