Vers une réponse aux questions médicales au niveau d'expert avec des grands modèles linguistiques

Les systèmes récents d’intelligence artificielle (IA) ont atteint des jalons majeurs dans des « défis majeurs » allant du jeu de Go à la prédiction de la structure des protéines. La capacité à récupérer des connaissances médicales, à raisonner sur celles-ci et à répondre à des questions médicales avec une performance comparable à celle des médecins a longtemps été considérée comme l’un de ces grands défis.Les grands modèles linguistiques (LLM) ont permis des progrès significatifs dans la réponse aux questions médicales. Med-PaLM a été le premier modèle à dépasser le seuil « passant » dans des questions de type examen national américain de licence médicale (USMLE), obtenant un score de 67,2 % sur le jeu de données MedQA. Toutefois, ces travaux précédents, ainsi que d’autres études, ont mis en évidence un potentiel important d’amélioration, particulièrement lorsque les réponses des modèles sont comparées à celles des cliniciens. Nous présentons ici Med-PaLM 2, qui comble ces écarts en combinant des améliorations fondamentales des LLM (PaLM 2), un fine-tuning spécialisé dans le domaine médical, et des stratégies d’incitation, notamment une nouvelle approche d’amélioration par ensemble.Med-PaLM 2 a atteint un score maximal de 86,5 % sur le jeu de données MedQA, représentant une amélioration de plus de 19 % par rapport à Med-PaLM et établissant un nouveau record d’état de l’art. Nous avons également observé une performance proche ou supérieure à l’état de l’art sur les jeux de données MedMCQA, PubMedQA et les sujets cliniques du MMLU.Nous avons mené des évaluations humaines détaillées sur des questions longues, selon plusieurs axes pertinents pour les applications cliniques. Dans un classement comparatif par paires portant sur 1 066 questions médicales destinées au grand public, les médecins ont préféré les réponses de Med-PaLM 2 aux réponses de médecins sur huit des neuf axes liés à l’utilité clinique (p < 0,001). Nous avons également observé des améliorations significatives par rapport à Med-PaLM sur tous les axes d’évaluation (p < 0,001) sur de nouveaux jeux de données comprenant 240 questions longues « adverses », conçues pour tester les limites des LLM.Bien qu’il soit nécessaire de mener des études supplémentaires pour valider l’efficacité de ces modèles dans des contextes réels, ces résultats mettent en lumière des progrès rapides vers une performance équivalente à celle des médecins dans la réponse aux questions médicales.