Command Palette
Search for a command to run...
Große Sprachmodelle kodieren klinisches Wissen
Große Sprachmodelle kodieren klinisches Wissen
Zusammenfassung
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten im Bereich der natürlichen Sprachverarbeitung, insbesondere in Verständnis und Generierung, demonstriert. Dennoch ist die Anforderungsqualität für medizinische und klinische Anwendungen hoch. Aktuelle Versuche zur Beurteilung des klinischen Wissens von Modellen beruhen typischerweise auf automatisierten Evaluierungen an eingeschränkten Benchmarks. Es existiert bislang kein Standard zur Bewertung der Vorhersagen und des Schlussfolgerns von Modellen über eine breite Palette an Aufgaben hinweg. Um diesem Problem entgegenzuwirken, stellen wir MultiMedQA vor – einen Benchmark, der sechs bestehende, offene Frage-Antwort-Datensätze kombiniert, die sich auf professionelle medizinische Prüfungen, Forschung und Verbraucheranfragen beziehen – sowie HealthSearchQA, einen neuen Datensatz mit offenen Antworten zu medizinischen Fragen, die online gesucht wurden. Wir schlagen einen Rahmen für die menschliche Evaluation von Modellantworten entlang mehrerer Dimensionen vor, darunter Faktizität, Präzision, potenzieller Schaden und Bias. Zusätzlich evaluieren wir PaLM (ein 540-Milliarden-Parameter-LLM) und dessen instruktionsgetuntes Pendant, Flan-PaLM, auf MultiMedQA. Durch eine Kombination verschiedener Prompt-Strategien erreicht Flan-PaLM state-of-the-art Genauigkeit in allen MultiMedQA-Mehrfachauswahl-Datensätzen (MedQA, MedMCQA, PubMedQA, klinische Themen im MMLU), darunter eine Genauigkeit von 67,6 % bei MedQA (Fragen zum US Medical License Exam), was die vorherige State-of-the-Art um über 17 Prozentpunkte übertrifft. Die menschliche Evaluation offenbart jedoch erhebliche Lücken in den Antworten von Flan-PaLM. Um dies zu beheben, führen wir Instruction Prompt Tuning ein – einen parameter-effizienten Ansatz zur Anpassung von LLMs an neue Domänen mittels nur wenigen Beispielen. Das resultierende Modell, Med-PaLM, zeigt vielversprechende Leistungen, bleibt jedoch den Kliniker:innen unterlegen. Wir zeigen, dass Verständnis, Wissensretrieval und medizinisches Schlussfolgern mit steigender Modellgröße und Instruction Prompt Tuning verbessert werden, was das Potenzial von LLMs in der Medizin unterstreicht. Unsere menschliche Evaluierungen offenbaren jedoch wichtige Grenzen der aktuellen Modelle und unterstreichen die Bedeutung sowohl von Evaluierungsrahmen als auch von Methodenentwicklung zur Schaffung sicherer, hilfreicher LLMs für klinische Anwendungen.