Command Palette
Search for a command to run...
Au-delà De La Réalité Visuelle : Le Nouveau Système D’évaluation De Tsinghua WorldArena Révèle Le Déficit De Capacités Dans Les Modèles Du Monde Incarné

Lorsque l'IA générative est capable de créer des vidéos d'un réalisme saisissant, ne sommes-nous pas loin d'une véritable intelligence incarnée ? La réponse n'est peut-être pas si optimiste.
Ces dernières années, les modèles de génération vidéo ont réalisé des progrès fulgurants. De la précision des éclairages et des ombres aux scènes dynamiques complexes, nombre d'entre eux peuvent désormais générer des images quasiment indiscernables de la réalité à l'œil nu. Cependant, lorsqu'ils sont intégrés à des systèmes robotiques et utilisés pour la prise de décision et l'exécution dans le monde physique, une réalité embarrassante se dessine : le réalisme visuel ne se traduit pas par une fiabilité fonctionnelle.
Les systèmes d'évaluation actuels des modèles du monde incarné reposent en grande partie sur une comparaison unidimensionnelle du « réalisme visuel » : le modèle produisant la vidéo la plus nette et la plus fluide est considéré comme le meilleur. Or, une question fondamentale est négligée : ces modèles, capables de générer de belles vidéos, peuvent-ils réellement soutenir une prise de décision et une action stables dans le monde physique réel ?
C’est précisément à cette question fondamentale que le nouveau système d’évaluation WorldArena tente de répondre et de résoudre.WorldArena, un projet proposé par des institutions telles que l'Université Tsinghua, l'Université de Pékin, l'Université de Hong Kong, l'Université de Princeton, l'Académie chinoise des sciences, l'Université Jiao Tong de Shanghai, l'Université des sciences et technologies de Chine et l'Université nationale de Singapour,Au lieu de limiter l'évaluation à l'apparence visuelle, elle a pour la première fois intégré la qualité de la génération vidéo à la fonctionnalité des tâches incarnées et a construit un cadre d'évaluation complet allant de « l'apparence est réelle » à « l'utilisation est réellement possible ».

Titre de l'article : WorldArena : un référentiel unifié pour évaluer la perception et l'utilité fonctionnelle des modèles du monde incarné
Adresse du document :
http://arxiv.org/abs/2602.08971
Page d'accueil du projet :
http://world-arena.ai
Classement d'évaluation :
https://huggingface.co/spaces/WorldArena/WorldArena
Dépôt de code :
https://github.com/tsinghua-fib-lab/WorldArena
Redéfinir ce qui constitue une « bonne » vidéo générée selon six dimensions.
Afin d'évaluer systématiquement la qualité des vidéos générées,WorldArena est structurée autour de 6 dimensions fondamentales.Ils ne se contentent pas de s'intéresser à l'esthétique visuelle, mais explorent également les lois physiques et l'intelligence spatiale.

Qualité visuelle
La qualité visuelle constitue l'évaluation perceptive la plus élémentaire. Elle mesure le réalisme et la similarité de distribution statistique d'une vidéo au niveau du pixel grâce à des indicateurs tels que la netteté de l'image, le score esthétique et la similarité de représentation JEPA.Cette dimension répond principalement à une question : le résultat généré correspond-il visuellement à la distribution réelle des données ?

Qualité de l'action
La dimension de qualité du mouvement se concentre sur la rationalité temporelle, à travers la continuité du flux optique, l'analyse de l'intensité du mouvement et la fluidité du mouvement.Évaluez si le mouvement des objets dans la vidéo est cohérent, stable et conforme aux lois naturelles.Même si un modèle peut générer des images nettes, sa crédibilité physique reste insuffisante s'il existe des sauts ou des discontinuités dans la trajectoire du mouvement.

Cohérence du contenu
Dans le monde réel, les objets ne disparaissent pas et ne se transforment pas. La dimension de cohérence du contenu permet de suivre la stabilité du sujet et de l'arrière-plan dans le temps et l'espace afin de détecter des problèmes tels que la dérive structurelle, la confusion d'identité du sujet ou l'incohérence de l'arrière-plan.Cette dimension met l'accent sur la capacité à maintenir une « cohérence constante », condition préalable à la réalisation de tâches à long terme.

Conformité physique
La conformité physique est un lien essentiel entre la vision et la fonction. WorldArena évalue précisément si l'interaction entre le bras robotique et les objets dans la vidéo est cohérente et si la trajectoire de mouvement respecte les principes de la dynamique de base. Autrement dit, le modèle doit non seulement en avoir l'apparence, mais aussi se mouvoir correctement. Cette dimension détermine directement si le modèle peut être utilisé pour le contrôle et la planification pratiques.

Précision 3D
L'intelligence incarnée repose sur la compréhension des structures spatiales tridimensionnelles. La précision 3D évalue si le modèle capture fidèlement les relations géométriques spatiales de la scène, notamment à travers l'erreur d'estimation de profondeur et la cohérence de perspective. Si les relations spatiales sont déformées, même si l'image bidimensionnelle est réaliste, le robot ne peut se fier à cette prédiction pour effectuer des opérations précises.

Contrôlabilité
Enfin, il y a la contrôlabilité, qui est une capacité essentielle pour que les modèles génératifs deviennent pratiques.Cette dimension examine si le modèle « comprend » réellement les instructions, s'il peut répondre avec précision aux entrées de l'utilisateur au niveau sémantique et s'il peut générer des résultats discriminants dans différentes conditions.La contrôlabilité n'est pas seulement liée à la qualité des données générées, mais aussi à l'adaptabilité à la tâche.

Ces six dimensions constituent ensemble le profil complet de WorldArena en matière de qualité vidéo générée. Elles ne sont plus des indicateurs isolés, mais se corroborent mutuellement, convergeant toutes vers un seul objectif : le contenu généré doit présenter un haut degré de réalisme en termes de perception, de temporalité, de physique, d’espace et de sémantique.
Le véritable test : le modèle mondial peut-il devenir l’exécuteur de la mission ?
Si l'évaluation de la qualité vidéo est un « examen physique », alors l'évaluation de la fonctionnalité des tâches incarnées est un « exercice en situation réelle ». Une autre innovation majeure de WorldArena réside dans son placement novateur de modèles du monde au sein de scénarios d'exécution de mission réalistes.En commençant par trois rôles clés, nous examinons sa véritable valeur pratique.

Premièrement, il sert de moteur de génération de données.
Les modèles du monde peuvent-ils générer des données de trajectoire synthétiques de haute qualité pour entraîner des modèles de politique en aval (tels que VLA) ? Les résultats expérimentaux montrent que certains modèles peuvent effectivement améliorer les performances, mais globalement, la qualité des données synthétiques reste nettement inférieure à celle des données réelles, et la plupart des modèles ne permettent pas encore d’obtenir des gains stables et fiables pour l’apprentissage des politiques. Par conséquent, la création de données d’entraînement « à partir de rien » à l’aide de modèles du monde demeure un défi.

Deuxièmement, il sert d'outil d'évaluation stratégique.
Les modèles du monde peuvent-ils simuler avec précision la dynamique des environnements réels, et ainsi remplacer ces derniers pour évaluer les performances de différents modèles stratégiques ? Des chercheurs ont entraîné une série de modèles VLA aux capacités variables, les ont testés dans des environnements de simulation réalistes et dans des environnements de modèles du monde, puis ont comparé la corrélation entre les deux ensembles de résultats. Les résultats ont révélé des différences significatives : certains modèles (comme CtrlWorld) ont atteint une corrélation de 0,986 avec l’environnement réel, devenant quasiment indiscernables de la réalité ; tandis que d’autres ont obtenu des résultats plus modestes, reflétant leurs faiblesses en matière d’évaluation visuelle.

Troisièmement, il sert de planificateur d'actions.
Cette tâche intègre un modèle du monde dans un système de contrôle en boucle fermée, lui permettant de participer directement à l'exécution de la tâche de bout en bout. Les expériences ont révélé que si certains modèles peuvent générer des prédictions futures visuellement plausibles, leurs performances pour la prise en charge de tâches de contrôle en boucle fermée à long terme et à étapes multiples restent nettement inférieures à celles de modèles de politique dédiés et matures (tels que Pi 0.5). Ils peuvent donner de bons résultats pour les prédictions à court terme, mais sont susceptibles de « se perdre » dans la prise de décision complexe à long terme.

Le réalisme visuel n'est pas synonyme de réalisme fonctionnel : un fossé qu'il faut combler.
À travers une évaluation systématique de 14 modèles mondiaux dominants actuels, WorldArena révèle une dure réalité :Il existe un fossé énorme entre les capacités de génération visuelle et les capacités d'exécution des tâches.
De nombreux modèles peuvent générer des vidéos très réalistes, mais ils révèlent des lacunes fondamentales en matière d'interactions physiques complexes, de cohérence à long terme et de soutien politique stable. Par conséquent,WorldArena a introduit une métrique de notation unifiée et complète, EWMScore, qui intègre les résultats d'évaluation vidéo multidimensionnels en un score unique pouvant être comparé entre différents publics.Il est important de noter que le score EWMScore est fortement corrélé positivement avec l'évaluation subjective humaine de la qualité vidéo, ce qui démontre son efficacité au niveau perceptif.

Cependant, lorsqu'une analyse de corrélation a été menée entre le score EWMScore et les performances aux tâches incarnées, un constat plus alarmant est apparu : sa corrélation avec les tâches de traitement de données était de 0,600, et sa corrélation avec les tâches de planification de mouvements était encore plus faible, à 0,360. Ces données démontrent clairement que même si un modèle est visuellement acceptable pour les humains, cela ne signifie pas nécessairement qu'il puisse prendre en charge efficacement les tâches incarnées du monde réel. Le fossé entre « esthétique » et « convivialité » représente un obstacle que la technologie actuelle doit surmonter.

L'importance de WorldArena réside non seulement dans la mise à disposition de nouveaux indicateurs, mais aussi dans l'évolution des centres d'intérêt des chercheurs. Elle déplace l'attention des compétitions de génération visuelle vers la vérification des capacités fonctionnelles ; du réalisme perceptif vers la compréhension physique et la stabilité des décisions à long terme.
Lorsque la compétition entre les modèles du monde ne se limitera plus à « qui ressemble le plus à un film », mais plutôt à « qui comprend le mieux la physique, qui est le plus robuste et qui peut le mieux soutenir la prise de décision dans le monde réel », le développement de l'intelligence incarnée entrera véritablement dans une nouvelle phase.
Les systèmes d'évaluation déterminent la direction de l'évolution technologique. La proposition de WorldArena constitue une voie nécessaire vers une intelligence incarnée et pratique.








