Command Palette
Search for a command to run...
Agents diagnostiques évoluant dans un environnement clinique virtuel
Agents diagnostiques évoluant dans un environnement clinique virtuel
Résumé
Dans cet article, nous présentons un cadre d'entraînement des grands modèles linguistiques (LLM) en tant qu'agents diagnostiques, basé sur l'apprentissage par renforcement, permettant à ces modèles de gérer des processus diagnostiques multi-tours, de sélectionner de manière adaptative les examens à réaliser, et de formuler des diagnostics finaux. Contrairement aux modèles ajustés par instruction sur des résumés de cas statiques, notre méthode permet d’acquérir des stratégies diagnostiques grâce à une exploration interactive et à un retour d’information fondé sur les résultats cliniques. Nos contributions sont de nature quadruple : (i) nous introduisons DiagGym, un modèle du monde diagnostique entraîné à partir de dossiers de santé électroniques, qui génère des résultats d’examen conditionnels à l’historique du patient et aux examens recommandés, servant ainsi d’environnement clinique virtuel pour former et évaluer de manière réaliste les processus diagnostiques ; (ii) nous entraînons DiagAgent via une approche d’apprentissage par renforcement multi-tours et end-to-end, afin d’apprendre des politiques diagnostiques optimisant à la fois le rendement informationnel et la précision diagnostique ; (iii) nous proposons DiagBench, un benchmark diagnostique composé de 750 cas dotés de recommandations d’examen validées par des médecins, ainsi que de 99 cas annotés par 973 critères rédigés par des praticiens sur le processus diagnostique ; (iv) nous démontrons des performances supérieures dans divers contextes diagnostiques. DiagAgent surpasse significativement dix modèles LLM de pointe, y compris DeepSeek-v3 et GPT-4o, ainsi que deux agents conçus par ingénierie de prompts. Dans les scénarios à une seule étape, DiagAgent atteint une précision diagnostique supérieure de 9,34 % et une amélioration de 44,03 % du taux de succès des recommandations d’examen. Dans les scénarios end-to-end, il réalise une augmentation de 15,12 % de la précision diagnostique et une hausse de 23,09 % du score F1 des recommandations d’examen. En évaluation basée sur les critères (rubrics), DiagAgent dépasse le modèle le plus performant actuellement disponible, Claude-sonnet-4, de 7,1 % en score pondéré des rubriques. Ces résultats indiquent que l’apprentissage de politiques dans des environnements cliniques interactifs confère aux modèles des capacités dynamiques et cliniquement pertinentes de gestion diagnostique, impossibles à atteindre par une formation passive seule.