HyperAIHyperAI

Command Palette

Search for a command to run...

Können große Sprachmodelle über medizinische Fragen reasoning durchführen?

Valentin Liévin Christoffer Egeberg Hother Andreas Geert Motzfeldt Ole Winther

Zusammenfassung

Obwohl große Sprachmodelle (LLMs) oft beeindruckende Ergebnisse liefern, ist unklar, wie sie sich in realen Szenarien verhalten, die starke Schlussfolgerungsfähigkeiten und fachliches Expertenwissen erfordern. Wir untersuchten, ob nahezu geschlossene und offene Quellmodelle (wie GPT-3.5, LLama-2 usw.) zur Beantwortung und zum Schlussfolgern schwieriger, auf der realen Welt basierender Fragen eingesetzt werden können. Dabei konzentrieren wir uns auf drei etablierte medizinische Benchmark-Datensätze (MedQA-USMLE, MedMCQA und PubMedQA) sowie verschiedene Prompting-Szenarien: Chain-of-Thought (CoT, Schritt-für-Schritt-Überlegung), Few-Shot-Lernen und Retrieval-Verstärkung. Auf Basis einer Expertenannotation der generierten CoTs stellten wir fest, dass InstructGPT häufig in der Lage ist, Informationen korrekt zu lesen, logisch zu verarbeiten und fachliches Expertenwissen abzurufen. Schließlich zeigten wir durch den Einsatz fortschrittlicher Prompting-Techniken (Few-Shot- und Ensemble-Methoden), dass GPT-3.5 nicht nur kalibrierte Vorhersageverteilungen liefert, sondern zudem auf drei Datensätzen die Bestehensgrenze erreicht: MedQA-USMLE mit 60,2 %, MedMCQA mit 62,7 % und PubMedQA mit 78,2 %. Offenquellmodelle schließen die Lücke zunehmend: Llama-2 70B erreichte ebenfalls mit 62,5 % die Bestehensgrenze im MedQA-USMLE.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp