HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 20 jours

Lorsque la visualisation est la première étape du raisonnement : MIRA, un benchmark pour la chaîne de raisonnement visuelle

Lorsque la visualisation est la première étape du raisonnement : MIRA, un benchmark pour la chaîne de raisonnement visuelle

Résumé

Nous proposons MIRA, un nouveau benchmark conçu pour évaluer les modèles dans des scénarios où la génération d’images visuelles intermédiaires est essentielle à un raisonnement réussi. Contrairement aux méthodes classiques de Chain-of-Thought (CoT) qui s’appuient exclusivement sur le texte, les tâches de MIRA exigent que les modèles génèrent et utilisent des images intermédiaires — telles que des croquis, des schémas structurels ou des tracés de parcours — afin d’orienter leur processus de raisonnement. Ce cadre reflète étroitement la manière dont les humains résolvent des problèmes complexes en « dessinant pour penser ». Pour répondre à ces défis, MIRA se concentre sur des tâches intrinsèquement difficiles, impliquant des structures complexes, des relations spatiales ou des étapes de raisonnement qui sont difficiles à exprimer uniquement par le langage. Afin d’assurer la qualité de nos données d’évaluation, nous incluons 546 problèmes multimodaux, annotés avec des images visuelles intermédiaires et des réponses finales. Nous proposons également un protocole d’évaluation unifié pour MIRA, couvrant trois niveaux d’entrée : (1) entrée directe comprenant uniquement l’image et la question ; (2) entrée CoT textuelle uniquement, avec l’image et des prompts de réflexion ; (3) entrée Visual-CoT, incluant à la fois des indices visuels annotés et des prompts textuels de raisonnement. Pour explorer la borne supérieure de la capacité des modèles sur ce benchmark, nous rapportons également les taux de réussite pass@k ainsi que les précisions obtenues par vote majoritaire, sous différentes configurations de k. Les résultats expérimentaux montrent que les modèles actuels de langage à grande échelle multimodaux, qu’il s’agisse de modèles privés de pointe ou de modèles open-weight performants, se comportent médiocrement lorsqu’ils s’appuient uniquement sur des prompts textuels. En revanche, lorsqu’on leur fournit des indices visuels intermédiaires, les performances des modèles s’améliorent de manière cohérente, offrant une amélioration relative moyenne de 33,7 % sur l’ensemble des modèles et des tâches. Nous avons également testé l’atteinte de la borne supérieure en élargissant l’espace de recherche et en concevant des prompts textuels alignés avec le cadre Visual-CoT, mais ces approches n’ont permis que des améliorations limitées par rapport à notre configuration Visual-CoT. Ces résultats mettent en évidence le rôle crucial de l’information visuelle imaginaire dans la mise en œuvre d’un raisonnement efficace sur MIRA.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Lorsque la visualisation est la première étape du raisonnement : MIRA, un benchmark pour la chaîne de raisonnement visuelle | Articles de recherche | HyperAI