HyperAIHyperAI

Command Palette

Search for a command to run...

Console

MMGR : Raisonnement génératif multimodal

Abstract

Les modèles fondamentaux vidéo génèrent des contenus visuellement réalistes et temporellement cohérents, mais leur fiabilité en tant que simulateurs du monde dépend de leur capacité à capturer des contraintes physiques, logiques et spatiales. Les métriques existantes, telles que la distance de Fréchet pour les vidéos (FVD), mettent l'accent sur la qualité perceptive tout en ignorant les échecs de raisonnement, notamment les violations de causalité, de physique et de cohérence globale. Nous introduisons MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark), un cadre d'évaluation rigoureux fondé sur cinq capacités de raisonnement : physique, logique, spatiale 3D, spatiale 2D et temporelle. MMGR évalue le raisonnement génératif sur trois domaines : raisonnement abstrait (ARC-AGI, Sudoku), navigation incarnée (navigation et localisation en 3D dans le monde réel) et bon sens physique (sports et interactions composites). MMGR applique des métriques à haute granularité exigeant une correction holistique à la fois pour la génération vidéo et image. Nous benchmarkons des modèles vidéo de pointe (Veo-3, Sora-2, Wan-2.2) et des modèles d’image (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), révélant des écarts de performance importants entre les domaines. Les modèles obtiennent des résultats modérés sur les tâches de bon sens physique, mais se révèlent très faibles en raisonnement abstrait (moins de 10 % de précision sur ARC-AGI) et éprouvent des difficultés majeures dans la planification spatiale à long terme dans des contextes incarnés. Notre analyse met en lumière des limites clés des modèles actuels, notamment une dépendance excessive aux données perceptuelles, une faible cohérence d’état global et des objectifs qui favorisent la plausibilité visuelle au détriment de la correction causale. MMGR propose ainsi une référence diagnostique unifiée et une voie vers des modèles mondiaux génératifs capables de raisonner.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MMGR : Raisonnement génératif multimodal | Papers | HyperAI