Capacités des modèles Gemini en médecine

L’excellence dans une large variété d’applications médicales pose des défis considérables pour l’intelligence artificielle, nécessitant des raisonnements avancés, un accès aux connaissances médicales à jour et une compréhension approfondie des données multimodales complexes. Les modèles Gemini, dotés de puissantes capacités générales en raisonnement multimodal et en traitement de longs contextes, ouvrent des perspectives prometteuses dans le domaine médical. Partant de ces forces fondamentales, nous introduisons Med-Gemini, une famille de modèles multimodaux hautement performants spécialisés dans le domaine médical, capables d’utiliser de manière fluide la recherche sur le web et de s’adapter efficacement à de nouveaux types de données grâce à des encodeurs personnalisés. Nous évaluons Med-Gemini sur 14 benchmarks médicaux, établissant un nouveau record d’état de l’art (SoTA) sur 10 d’entre eux, et surpassant la famille de modèles GPT-4 sur chaque benchmark permettant une comparaison directe, souvent de manière significative. Sur le benchmark populaire MedQA (USMLE), notre modèle Med-Gemini le plus performant atteint une précision SoTA de 91,1 %, grâce à une stratégie novatrice de recherche guidée par l’incertitude. Sur 7 benchmarks multimodaux, incluant les défis d’images du NEJM et MMMU (santé et médecine), Med-Gemini améliore GPT-4V en moyenne de 44,5 % en termes de gain relatif. Nous démontrons l’efficacité des capacités de long contexte de Med-Gemini en obtenant des performances SoTA sur une tâche de recherche de données rares dans de longs dossiers médicaux anonymisés ainsi que sur la réponse à des questions issues de vidéos médicales, surpassant ainsi les méthodes spécialisées antérieures utilisant uniquement l’apprentissage par exemple. Enfin, les performances de Med-Gemini suggèrent une utilité concrète dans des contextes réels, dépassant même les experts humains sur des tâches telles que la synthèse de textes médicaux, tout en illustrant un potentiel prometteur pour les dialogues médicaux multimodaux, la recherche médicale et l’éducation. Ensemble, nos résultats fournissent des preuves convaincantes du potentiel de Med-Gemini, bien que des évaluations rigoureuses supplémentaires restent essentielles avant un déploiement réel dans ce domaine critique pour la sécurité.