HyperAIHyperAI

Command Palette

Search for a command to run...

Evolvierende diagnostische Agenten in einer virtuellen klinischen Umgebung

Zusammenfassung

In diesem Artikel stellen wir einen Rahmen für die Ausbildung großer Sprachmodelle (Large Language Models, LLMs) als diagnostische Agenten mittels Verstärkungslernen vor, der es ihnen ermöglicht, diagnostische Prozesse über mehrere Interaktionsrunden zu führen, Untersuchungen adaptiv auszuwählen und letztlich zu einer endgültigen Diagnose zu gelangen. Im Gegensatz zu instruktionsangepassten Modellen, die auf statischen Fallzusammenfassungen trainiert wurden, erlangt unsere Methode diagnostische Strategien durch interaktive Exploration und feedbackbasiertes Lernen auf der Grundlage von Ergebnissen. Unsere Beiträge sind vielfältig: (i) Wir stellen DiagGym vor, ein diagnostisches Weltmodell, das anhand elektronischer Gesundheitsakten trainiert wurde und Untersuchungsergebnisse emittiert, die von der Patientengeschichte und den empfohlenen Untersuchungen abhängen. Es dient als virtuelle klinische Umgebung für realistisches Diagnosetraining und -bewertung; (ii) Wir trainieren DiagAgent mittels end-to-end-Verstärkungslernen über mehrere Interaktionsrunden, um diagnostische Strategien zu erlernen, die sowohl die Informationsgewinnung als auch die diagnostische Genauigkeit optimieren; (iii) Wir führen DiagBench ein, eine diagnostische Benchmark mit 750 Fällen, die mit von Ärzten validierten Untersuchungsempfehlungen versehen sind, sowie 99 Fällen, die mit insgesamt 973 von Ärzten verfassten Bewertungskriterien zur Diagnoseprozessqualität annotiert sind; (iv) Wir zeigen eine überlegene Leistung in verschiedenen diagnostischen Szenarien. DiagAgent übertrifft signifikant zehn aktuelle Spitzen-LLMs, darunter DeepSeek-v3 und GPT-4o, sowie zwei prompt-engineerte Agenten. In Einzelschritt-Szenarien erreicht DiagAgent eine um 9,34 Prozentpunkte höhere diagnostische Genauigkeit und eine Verbesserung des Trefferrates bei Untersuchungsempfehlungen um 44,03 Prozent. In end-to-end-Szenarien steigt die diagnostische Genauigkeit um 15,12 Prozent und der F1-Score für Untersuchungsempfehlungen um 23,09 Prozent. Bei der Bewertung anhand von Bewertungskriterien übertrifft DiagAgent das nächstbeste Modell, Claude-sonnet-4, um 7,1 Prozentpunkte im gewichteten Kriterien-Score. Diese Ergebnisse deuten darauf hin, dass das Erlernen von Strategien in interaktiven klinischen Umgebungen dynamische und klinisch sinnvolle diagnostische Managementfähigkeiten ermöglicht, die durch rein passives Training nicht erreichbar sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp