HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 7 jours

Les simulateurs mondiaux peuvent-ils raisonner ? Gen-ViRe : Une référence générative pour le raisonnement visuel

Xinxin Liu Zhaopan Xu Kai Wang Yong Jae Lee Yuzhang Shang

Les simulateurs mondiaux peuvent-ils raisonner ? Gen-ViRe : Une référence générative pour le raisonnement visuel

Résumé

Bien que la technique de « Chain-of-Thought » (CoT) permette aux modèles linguistiques à grande échelle (LLM) de réaliser des raisonnements symboliques sophistiqués, elle reste limitée au texte discret et ne peut pas simuler les dynamiques continues, régi par les lois de la physique, du monde réel. Des modèles récents de génération vidéo émergent comme des simulateurs mondiaux potentiels grâce à un raisonnement par « Chain-of-Frames » (CoF) : ils matérialisent la pensée sous forme de séquences visuelles frame par frame, chaque image représentant une étape de raisonnement ancrée dans les lois physiques. Malgré des démonstrations convaincantes, un défi persiste : les benchmarks existants, axés sur la fidélité ou l’alignement, ne prennent pas en compte le raisonnement CoF, et ne peuvent donc pas évaluer les capacités cognitives fondamentales telles que la planification multi-étapes, la logique algorithmique ou l’extrapolation de schémas abstraits. Ce vide d’évaluation empêche une compréhension systématique des capacités des modèles et une orientation rigoureuse pour leur amélioration. Nous introduisons Gen-ViRe (Generative Visual Reasoning Benchmark), un cadre fondé sur les sciences cognitives et les applications réelles d’IA, qui décompose le raisonnement CoF en six dimensions cognitives — allant de la logique perceptuelle à la planification abstraite — et 24 sous-tâches. Grâce à une collecte de données multi-sources, à des protocoles de promptage minimal, et à une évaluation hybride assistée par des modèles visuels-langagiers (VLM) avec des critères détaillés, Gen-ViRe fournit la première évaluation quantitative des modèles vidéo en tant que raisonneurs. Nos expériences sur des systèmes de pointe révèlent des écarts importants entre la qualité visuelle impressionnante et la profondeur réelle du raisonnement, établissant ainsi des références et des outils diagnostiques pour progresser vers des simulateurs mondiaux authentiques.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Les simulateurs mondiaux peuvent-ils raisonner ? Gen-ViRe : Une référence générative pour le raisonnement visuel | Articles de recherche | HyperAI