Zur Erreichung expertenleveliger medizinischer Fragebeantwortung mit großen Sprachmodellen

Kürzlich erreichten künstliche Intelligenz (KI)-Systeme Meilensteine bei „großen Herausforderungen“, die von Go bis zur Proteinfaltung reichen. Die Fähigkeit, medizinisches Wissen abzurufen, darüber zu schließen und medizinische Fragen vergleichbar mit Ärzten zu beantworten, gilt seit langem als eine solche große Herausforderung.Große Sprachmodelle (Large Language Models, LLMs) haben einen entscheidenden Fortschritt im Bereich der medizinischen Fragebeantwortung ermöglicht; Med-PaLM war das erste Modell, das bei Fragen im Stil der US Medical Licensing Examination (USMLE) eine „bestandene“ Bewertung erreichte, mit einer Trefferquote von 67,2 % auf dem MedQA-Datensatz. Allerdings zeigten diese und frühere Arbeiten erheblichen Verbesserungsbedarf, insbesondere wenn die Antworten der Modelle mit denen von Kliniker:innen verglichen wurden. Hier präsentieren wir Med-PaLM 2, das diese Lücken durch die Kombination von Verbesserungen des Basis-LLM (PaLM 2), medizinisch spezifischem Fine-Tuning und anspruchsvollen Prompting-Strategien, einschließlich eines neuartigen Ensemble-Refinement-Ansatzes, schließt.Med-PaLM 2 erreichte eine Leistung von bis zu 86,5 % auf dem MedQA-Datensatz, was eine Verbesserung um über 19 % gegenüber Med-PaLM darstellt und eine neue State-of-the-Art-Leistung etabliert. Zudem zeigten wir eine Leistung, die nahe an oder sogar über der aktuellen State-of-the-Art-Linie auf den Datensätzen MedMCQA, PubMedQA und MMLU klinische Themen liegt.Wir führten detaillierte menschliche Evaluierungen zu langen Fragen durch, wobei mehrere Aspekte im Hinblick auf klinische Anwendungen berücksichtigt wurden. Bei einer paarweisen Vergleichsrangfolge von 1066 medizinischen Fragen für Verbraucher:innen bevorzugten Ärzt:innen die Antworten von Med-PaLM 2 gegenüber den Antworten von Ärzt:innen in acht von neun Aspekten hinsichtlich klinischer Nützlichkeit (p < 0,001). Zudem zeigten wir signifikante Verbesserungen gegenüber Med-PaLM auf allen Bewertungsaspekten (p < 0,001) bei neu eingeführten Datensätzen mit 240 langen „adversariellen“ Fragen, die dazu dienen, die Grenzen von LLMs zu testen.Obwohl weitere Studien erforderlich sind, um die Wirksamkeit dieser Modelle in realen klinischen Umgebungen zu validieren, verdeutlichen diese Ergebnisse einen raschen Fortschritt hin zu einer Leistung auf Ärzteniveau in der medizinischen Fragebeantwortung.