HyperAIHyperAI

Command Palette

Search for a command to run...

SMMILE : Un Benchmark Dirigé par des Experts pour l'Apprentissage Multimodal Médical en Contexte

Résumé

L'apprentissage en contexte multimodal (ICL) reste sous-exploité malgré un potentiel significatif dans des domaines tels que la médecine. Les cliniciens sont régulièrement confrontés à des tâches diverses et spécialisées nécessitant une adaptation à partir d'exemples limités, comme tirer des conclusions de quelques cas pertinents précédents ou considérer un ensemble restreint de diagnostics différentiels. Bien que les grands modèles linguistiques multimodaux (MLLMs) aient montré des progrès dans le domaine de la réponse aux questions médicales visuelles (VQA), leur capacité à apprendre des tâches multimodales à partir du contexte est largement inconnue. Nous présentons SMMILE, le premier benchmark d'ICL multimodal dirigé par des experts pour les tâches médicales. Onze experts médicaux ont sélectionné des problèmes, chacun comprenant une requête multimodale et des exemples en contexte multimodal comme démonstrations de tâche. SMMILE englobe 111 problèmes (517 triplets question-image-réponse) couvrant 6 spécialités médicales et 13 modalités d'imagerie. Nous introduisons également SMMILE++, une variante augmentée avec 1038 problèmes permutés. Une évaluation exhaustive de 15 MLLMs montre que la plupart des modèles présentent une capacité d'ICL multimodal modérée à faible dans les tâches médicales. Dans les évaluations ouvertes, l'ICL apporte seulement une amélioration moyenne de 8% par rapport au zero-shot sur SMMILE et de 9,4% sur SMMILE++. Nous observons une vulnérabilité face aux exemples en contexte non pertinents : même un seul exemple bruyant ou non pertinent peut dégrader les performances jusqu'à 9,5%. De plus, l'ordre des exemples présente un biais récentiel, c'est-à-dire que placer l'exemple le plus pertinent en dernier peut entraîner d'importantes améliorations de performance allant jusqu'à 71%. Nos résultats mettent en lumière les limitations critiques et les biais actuels des MLLMs lorsqu'ils apprennent des tâches médicales multimodales à partir du contexte.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp