HyperAIHyperAI

Command Palette

Search for a command to run...

Agents diagnostiques évoluant dans un environnement clinique virtuel

Résumé

Dans cet article, nous présentons un cadre d'entraînement des grands modèles linguistiques (LLM) en tant qu'agents diagnostiques, basé sur l'apprentissage par renforcement, permettant à ces modèles de gérer des processus diagnostiques multi-tours, de sélectionner de manière adaptative les examens à réaliser, et de formuler des diagnostics finaux. Contrairement aux modèles ajustés par instruction sur des résumés de cas statiques, notre méthode permet d’acquérir des stratégies diagnostiques grâce à une exploration interactive et à un retour d’information fondé sur les résultats cliniques. Nos contributions sont de nature quadruple : (i) nous introduisons DiagGym, un modèle du monde diagnostique entraîné à partir de dossiers de santé électroniques, qui génère des résultats d’examen conditionnels à l’historique du patient et aux examens recommandés, servant ainsi d’environnement clinique virtuel pour former et évaluer de manière réaliste les processus diagnostiques ; (ii) nous entraînons DiagAgent via une approche d’apprentissage par renforcement multi-tours et end-to-end, afin d’apprendre des politiques diagnostiques optimisant à la fois le rendement informationnel et la précision diagnostique ; (iii) nous proposons DiagBench, un benchmark diagnostique composé de 750 cas dotés de recommandations d’examen validées par des médecins, ainsi que de 99 cas annotés par 973 critères rédigés par des praticiens sur le processus diagnostique ; (iv) nous démontrons des performances supérieures dans divers contextes diagnostiques. DiagAgent surpasse significativement dix modèles LLM de pointe, y compris DeepSeek-v3 et GPT-4o, ainsi que deux agents conçus par ingénierie de prompts. Dans les scénarios à une seule étape, DiagAgent atteint une précision diagnostique supérieure de 9,34 % et une amélioration de 44,03 % du taux de succès des recommandations d’examen. Dans les scénarios end-to-end, il réalise une augmentation de 15,12 % de la précision diagnostique et une hausse de 23,09 % du score F1 des recommandations d’examen. En évaluation basée sur les critères (rubrics), DiagAgent dépasse le modèle le plus performant actuellement disponible, Claude-sonnet-4, de 7,1 % en score pondéré des rubriques. Ces résultats indiquent que l’apprentissage de politiques dans des environnements cliniques interactifs confère aux modèles des capacités dynamiques et cliniquement pertinentes de gestion diagnostique, impossibles à atteindre par une formation passive seule.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp