il y a 16 jours

SMMILE : Un Benchmark Dirigé par des Experts pour l'Apprentissage Multimodal Médical en Contexte

Melanie Rieff; Maya Varma; Ossian Rabow; Subathra Adithan; Julie Kim; Ken Chang; Hannah Lee; Nidhi Rohatgi; Christian Bluethgen; Mohamed S. Muneer; Jean-Benoit Delbrouck; Michael Moor

Voir les détails de l'article

SMMILE : Un Benchmark Dirigé par des Experts pour l'Apprentissage Multimodal Médical en Contexte

Résumé

L'apprentissage en contexte multimodal (ICL) reste sous-exploité malgré un potentiel significatif dans des domaines tels que la médecine. Les cliniciens sont régulièrement confrontés à des tâches diverses et spécialisées nécessitant une adaptation à partir d'exemples limités, comme tirer des conclusions de quelques cas pertinents précédents ou considérer un ensemble restreint de diagnostics différentiels. Bien que les grands modèles linguistiques multimodaux (MLLMs) aient montré des progrès dans le domaine de la réponse aux questions médicales visuelles (VQA), leur capacité à apprendre des tâches multimodales à partir du contexte est largement inconnue. Nous présentons SMMILE, le premier benchmark d'ICL multimodal dirigé par des experts pour les tâches médicales. Onze experts médicaux ont sélectionné des problèmes, chacun comprenant une requête multimodale et des exemples en contexte multimodal comme démonstrations de tâche. SMMILE englobe 111 problèmes (517 triplets question-image-réponse) couvrant 6 spécialités médicales et 13 modalités d'imagerie. Nous introduisons également SMMILE++, une variante augmentée avec 1038 problèmes permutés. Une évaluation exhaustive de 15 MLLMs montre que la plupart des modèles présentent une capacité d'ICL multimodal modérée à faible dans les tâches médicales. Dans les évaluations ouvertes, l'ICL apporte seulement une amélioration moyenne de 8% par rapport au zero-shot sur SMMILE et de 9,4% sur SMMILE++. Nous observons une vulnérabilité face aux exemples en contexte non pertinents : même un seul exemple bruyant ou non pertinent peut dégrader les performances jusqu'à 9,5%. De plus, l'ordre des exemples présente un biais récentiel, c'est-à-dire que placer l'exemple le plus pertinent en dernier peut entraîner d'importantes améliorations de performance allant jusqu'à 71%. Nos résultats mettent en lumière les limitations critiques et les biais actuels des MLLMs lorsqu'ils apprennent des tâches médicales multimodales à partir du contexte.