Command Palette
Search for a command to run...
Lorsque la visualisation est la première étape du raisonnement : MIRA, un benchmark pour la chaîne de raisonnement visuelle

Résumé
Nous proposons MIRA, un nouveau benchmark conçu pour évaluer les modèles dans des scénarios où la génération d’images visuelles intermédiaires est essentielle à un raisonnement réussi. Contrairement aux méthodes classiques de Chain-of-Thought (CoT) qui s’appuient exclusivement sur le texte, les tâches de MIRA exigent que les modèles génèrent et utilisent des images intermédiaires — telles que des croquis, des schémas structurels ou des tracés de parcours — afin d’orienter leur processus de raisonnement. Ce cadre reflète étroitement la manière dont les humains résolvent des problèmes complexes en « dessinant pour penser ». Pour répondre à ces défis, MIRA se concentre sur des tâches intrinsèquement difficiles, impliquant des structures complexes, des relations spatiales ou des étapes de raisonnement qui sont difficiles à exprimer uniquement par le langage. Afin d’assurer la qualité de nos données d’évaluation, nous incluons 546 problèmes multimodaux, annotés avec des images visuelles intermédiaires et des réponses finales. Nous proposons également un protocole d’évaluation unifié pour MIRA, couvrant trois niveaux d’entrée : (1) entrée directe comprenant uniquement l’image et la question ; (2) entrée CoT textuelle uniquement, avec l’image et des prompts de réflexion ; (3) entrée Visual-CoT, incluant à la fois des indices visuels annotés et des prompts textuels de raisonnement. Pour explorer la borne supérieure de la capacité des modèles sur ce benchmark, nous rapportons également les taux de réussite pass@k ainsi que les précisions obtenues par vote majoritaire, sous différentes configurations de k. Les résultats expérimentaux montrent que les modèles actuels de langage à grande échelle multimodaux, qu’il s’agisse de modèles privés de pointe ou de modèles open-weight performants, se comportent médiocrement lorsqu’ils s’appuient uniquement sur des prompts textuels. En revanche, lorsqu’on leur fournit des indices visuels intermédiaires, les performances des modèles s’améliorent de manière cohérente, offrant une amélioration relative moyenne de 33,7 % sur l’ensemble des modèles et des tâches. Nous avons également testé l’atteinte de la borne supérieure en élargissant l’espace de recherche et en concevant des prompts textuels alignés avec le cadre Visual-CoT, mais ces approches n’ont permis que des améliorations limitées par rapport à notre configuration Visual-CoT. Ces résultats mettent en évidence le rôle crucial de l’information visuelle imaginaire dans la mise en œuvre d’un raisonnement efficace sur MIRA.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.