Rapport technique de MedGemma

L'intelligence artificielle (IA) présente un potentiel considérable dans les applications de santé, mais son entraînement et sa mise en œuvre sont confrontés à des défis dus à la diversité des données de santé, aux tâches complexes et à la nécessité de préserver la confidentialité. Les modèles fondamentaux qui se distinguent par leurs performances sur les tâches médicales et qui nécessitent moins de données d'ajustement spécifiques à la tâche sont essentiels pour accélérer le développement des applications d'IA en santé. Nous présentons MedGemma, une collection de modèles fondamentaux de vision-langue médicale basés sur Gemma 3 4B et 27B. MedGemma démontre une compréhension et une capacité de raisonnement avancées en médecine sur les images et le texte, surpassant significativement les performances des modèles génératifs similaires en taille et s'approchant des performances des modèles spécifiques à la tâche, tout en conservant les capacités générales des modèles de base Gemma 3. Pour les tâches hors distribution, MedGemma réalise une amélioration de 2,6 à 10 % dans l'answer aux questions multimodales médicales, une amélioration de 15,5 à 18,1 % dans la classification des résultats des radiographies thoraciques et une amélioration de 10,8 % dans les évaluations agenciques par rapport aux modèles de base. L'ajustement fin (fine-tuning) de MedGemma améliore encore davantage les performances dans les sous-domaines, réduisant les erreurs de recherche d'informations dans les dossiers médicaux électroniques (DME) de 50 % et atteignant des performances comparables aux méthodes spécialisées actuelles d'état de l'art pour la classification du pneumothorax et la classification des patches histopathologiques. Nous introduisons également MedSigLIP, un encodeur visuel adapté au domaine médical dérivé de SigLIP. MedSigLIP alimente les capacités d'interprétation visuelle de MedGemma et, en tant qu'encodeur, atteint des performances comparables ou supérieures à celles des encodeurs d'images médicales spécialisés. Dans leur ensemble, les modèles MedGemma fournissent une base solide pour les capacités d'image et de texte médicales, avec un potentiel important pour accélérer la recherche médicale et le développement d'applications downstream. La collection MedGemma, y compris les tutoriels et les poids du modèle, est disponible à cette adresse URL : [this https URL].