KI-Benchmark bewertet klinische Texte in neun Sprachen
Forschungende des Mass General Brigham-Instituts haben mit BRIDGE ein mehrsprachiges Benchmark-System vorgestellt, das die Fähigkeit großer Sprachmodelle zur Verarbeitung klinischer Patientendaten in neun Sprachen misst. Die Ergebnisse wurden in Nature Biomedical Engineering publiziert. Im Gegensatz zu bisherigen Testverfahren, die häufig auf standardisierten Prüfungsfragen basieren, stützt sich BRIDGE auf echte Datenquellen wie elektronische Gesundheitsakten, Fallberichte und Arzt-Patienten-Gespräche. Dies ermöglicht eine realitätsnähere Bewertung der Modelle. Ein Top-Modell erreichte zwar bei klassischen Medizinprüfungen Werte bis zu 92 Punkten, schnitt bei der Analyse echter klinischer Texte jedoch nur mit 44,8 Prozent korrekt ab. Diese Diskrepanz unterstreicht die Lücken moderner KI in der Verarbeitung komplexer, alltäglicher Fachterminologie. Das Entwicklungsteam um die Hauptautorin Jie Yang sowie die Ko-Autoren Joshua Lin, Jiageng Wu und Bowen Gu testete systematisch 95 Sprachmodelle aus 59 verschiedenen Quellen. Die Bewertung umfasste 14 klinische Fachgebiete und deckte zentrale Aufgaben des Versorgungspfades ab, darunter Triage, Informationsextraktion, Diagnosestellung, Prognoseabschätzung und Abrechnungs-Coding. Das öffentliche, kontinuierlich aktualisierte Ranking umfasst derzeit 107 Modelle und dient Klinikern sowie KI-Entwicklern als neutrale Vergleichsplattform. BRIDGE zeigt zudem deutliche Leistungsunterschiede je nach medizinischer Spezialisierung. Durch die Abdeckung neun verschiedener Sprachen identifiziert das Benchmark-System gezielte Schwachstellen und fördert die Entwicklung biasärmerer, gerechterer KI-Systeme für nicht-englischsprachige Patientengruppen. Die Forschenden betonen, dass BRIDGE sowohl die Auswahl passgenauer klinischer KI-Tools als auch die gezielte Weiterentwicklung der Modelle durch Hersteller unterstützt. Damit schafft das System eine entscheidende Grundlage für den sicheren, evidenzbasierten Einsatz von Generative-AI-Lösungen im realen Gesundheitswesen.
