HyperAIHyperAI

Command Palette

Search for a command to run...

BRIDGE évalue les LLM cliniques en 9 langues

Des chercheurs du Mass General Brigham ont publié dans Nature Biomedical Engineering les résultats du développement de BRIDGE, une nouvelle plateforme d'évaluation conçue pour mesurer la capacité des grands modèles de langage à comprendre des textes cliniques réels. Contrairement aux benchmarks médicaux traditionnels basés sur des examens standardisés, BRIDGE utilise des données issues de dossiers de santé électroniques, de comptes rendus médicaux et d'interactions entre médecins et patients. L'outil s'appuie sur neuf langues et couvre quatorze spécialités médicales, en évaluant des tâches concrètes telles que le triage, l'extraction d'informations, le diagnostic, l'établissement de pronostics et le codage administratif. L'équipe, dirigée par le Dr Jie Yang et le Dr Joshua Lin, a testé cette méthodologie sur quatre-vingt-quinze modèles différents. Les résultats révèlent un écart significatif entre la performance des intelligences artificielles aux tests de connaissances médicales conventionnelles et leur efficacité sur des données cliniques authentiques. Si le modèle le plus performant a atteint 92 % sur les examens standardisés, son score n'a atteint que 44,8 % sur les dossiers réels, soulignant les limites actuelles des systèmes face au langage complexe et contextuel des soins de santé. Les chercheurs ont également constaté que la précision des modèles varie considérablement selon les spécialités médicales et les langues traitées. Pour répondre à ces enjeux, ils ont ouvert un tableau de classement public et régulièrement mis à jour, comptant désormais plus de cent modèles. Cette plateforme permet aux professionnels de santé de comparer objectivement les outils disponibles et d'intégrer ceux qui offrent le meilleur compromis de fiabilité, tout en guidant les développeurs vers des améliorations ciblées. En normalisant l'évaluation sur des données multilingues et contextuelles, BRIDGE vise à réduire les disparités dans l'accès aux innovations technologiques. Les créateurs de l'outil espèrent ainsi favoriser le déploiement d'assistants numériques plus fiables et équitables, adaptés aux patients de toutes origines linguistiques, tout en posant des bases rigoureuses pour l'intégration future de l'intelligence artificielle dans les pratiques cliniques quotidiennes.

Liens associés