Command Palette
Search for a command to run...
Les simulateurs mondiaux peuvent-ils raisonner ? Gen-ViRe : Une référence générative pour le raisonnement visuel
Xinxin Liu Zhaopan Xu Kai Wang Yong Jae Lee Yuzhang Shang

Résumé
Bien que la technique de « Chain-of-Thought » (CoT) permette aux modèles linguistiques à grande échelle (LLM) de réaliser des raisonnements symboliques sophistiqués, elle reste limitée au texte discret et ne peut pas simuler les dynamiques continues, régi par les lois de la physique, du monde réel. Des modèles récents de génération vidéo émergent comme des simulateurs mondiaux potentiels grâce à un raisonnement par « Chain-of-Frames » (CoF) : ils matérialisent la pensée sous forme de séquences visuelles frame par frame, chaque image représentant une étape de raisonnement ancrée dans les lois physiques. Malgré des démonstrations convaincantes, un défi persiste : les benchmarks existants, axés sur la fidélité ou l’alignement, ne prennent pas en compte le raisonnement CoF, et ne peuvent donc pas évaluer les capacités cognitives fondamentales telles que la planification multi-étapes, la logique algorithmique ou l’extrapolation de schémas abstraits. Ce vide d’évaluation empêche une compréhension systématique des capacités des modèles et une orientation rigoureuse pour leur amélioration. Nous introduisons Gen-ViRe (Generative Visual Reasoning Benchmark), un cadre fondé sur les sciences cognitives et les applications réelles d’IA, qui décompose le raisonnement CoF en six dimensions cognitives — allant de la logique perceptuelle à la planification abstraite — et 24 sous-tâches. Grâce à une collecte de données multi-sources, à des protocoles de promptage minimal, et à une évaluation hybride assistée par des modèles visuels-langagiers (VLM) avec des critères détaillés, Gen-ViRe fournit la première évaluation quantitative des modèles vidéo en tant que raisonneurs. Nos expériences sur des systèmes de pointe révèlent des écarts importants entre la qualité visuelle impressionnante et la profondeur réelle du raisonnement, établissant ainsi des références et des outils diagnostiques pour progresser vers des simulateurs mondiaux authentiques.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.