Command Palette
Search for a command to run...
Arène de Raisonnement Mondial
Arène de Raisonnement Mondial
Résumé
Les modèles du monde (World Models, WMs) sont conçus pour agir comme des simulateurs internes du monde réel, permettant aux agents de comprendre, d'anticiper et d'agir dans des environnements complexes. Les benchmarks existants pour les WMs restent étroitement centrés sur la prédiction de l'état suivant et la fidélité visuelle, négligeant ainsi les capacités de simulation plus riches nécessaires à un comportement intelligent. Pour combler cette lacune, nous introduisons WR-Arena, un benchmark complet pour l'évaluation des WMs selon trois dimensions fondamentales de la simulation du monde futur : (i) la fidélité de la simulation d'action, c'est-à-dire la capacité à interpréter et à suivre des instructions sémantiquement riches et multi-étapes, tout en générant des trajectoires contrefactuelles diversifiées ; (ii) la prévision à long horizon, soit la capacité de maintenir des simulations précises, cohérentes et physiquement plausibles sur de longues séquences d'interactions ; et (iii) le raisonnement et la planification simulatifs, c'est-à-dire la capacité de soutenir un raisonnement orienté vers un objectif en simulant, comparant et sélectionnant parmi des futurs alternatifs, aussi bien dans des environnements structurés que ouverts. Nous établissons une taxonomie de tâches et constituons des ensembles de données diversifiés conçus pour sonder ces capacités, dépassant ainsi les évaluations monolithiques et purement perceptuelles. Grâce à des expériences extensives menées sur des WMs de l'état de l'art, nos résultats révèlent un écart substantiel entre les modèles actuels et le raisonnement hypothétique au niveau humain, et établissent WR-Arena à la fois comme un outil de diagnostic et comme un cadre directeur pour faire progresser la prochaine génération de modèles du monde, capables d'une compréhension robuste, de prévisions fiables et d'actions intentionnelles.