Command Palette
Search for a command to run...
Evolvierende diagnostische Agenten in einer virtuellen klinischen Umgebung
Evolvierende diagnostische Agenten in einer virtuellen klinischen Umgebung
Zusammenfassung
In diesem Artikel stellen wir einen Rahmen für die Ausbildung großer Sprachmodelle (Large Language Models, LLMs) als diagnostische Agenten mittels Verstärkungslernen vor, der es ihnen ermöglicht, diagnostische Prozesse über mehrere Interaktionsrunden zu führen, Untersuchungen adaptiv auszuwählen und letztlich zu einer endgültigen Diagnose zu gelangen. Im Gegensatz zu instruktionsangepassten Modellen, die auf statischen Fallzusammenfassungen trainiert wurden, erlangt unsere Methode diagnostische Strategien durch interaktive Exploration und feedbackbasiertes Lernen auf der Grundlage von Ergebnissen. Unsere Beiträge sind vielfältig: (i) Wir stellen DiagGym vor, ein diagnostisches Weltmodell, das anhand elektronischer Gesundheitsakten trainiert wurde und Untersuchungsergebnisse emittiert, die von der Patientengeschichte und den empfohlenen Untersuchungen abhängen. Es dient als virtuelle klinische Umgebung für realistisches Diagnosetraining und -bewertung; (ii) Wir trainieren DiagAgent mittels end-to-end-Verstärkungslernen über mehrere Interaktionsrunden, um diagnostische Strategien zu erlernen, die sowohl die Informationsgewinnung als auch die diagnostische Genauigkeit optimieren; (iii) Wir führen DiagBench ein, eine diagnostische Benchmark mit 750 Fällen, die mit von Ärzten validierten Untersuchungsempfehlungen versehen sind, sowie 99 Fällen, die mit insgesamt 973 von Ärzten verfassten Bewertungskriterien zur Diagnoseprozessqualität annotiert sind; (iv) Wir zeigen eine überlegene Leistung in verschiedenen diagnostischen Szenarien. DiagAgent übertrifft signifikant zehn aktuelle Spitzen-LLMs, darunter DeepSeek-v3 und GPT-4o, sowie zwei prompt-engineerte Agenten. In Einzelschritt-Szenarien erreicht DiagAgent eine um 9,34 Prozentpunkte höhere diagnostische Genauigkeit und eine Verbesserung des Trefferrates bei Untersuchungsempfehlungen um 44,03 Prozent. In end-to-end-Szenarien steigt die diagnostische Genauigkeit um 15,12 Prozent und der F1-Score für Untersuchungsempfehlungen um 23,09 Prozent. Bei der Bewertung anhand von Bewertungskriterien übertrifft DiagAgent das nächstbeste Modell, Claude-sonnet-4, um 7,1 Prozentpunkte im gewichteten Kriterien-Score. Diese Ergebnisse deuten darauf hin, dass das Erlernen von Strategien in interaktiven klinischen Umgebungen dynamische und klinisch sinnvolle diagnostische Managementfähigkeiten ermöglicht, die durch rein passives Training nicht erreichbar sind.