HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un jour
Agent
Benchmarks

Arène de Raisonnement Mondial

Résumé

Les modèles du monde (World Models, WMs) sont conçus pour agir comme des simulateurs internes du monde réel, permettant aux agents de comprendre, d'anticiper et d'agir dans des environnements complexes. Les benchmarks existants pour les WMs restent étroitement centrés sur la prédiction de l'état suivant et la fidélité visuelle, négligeant ainsi les capacités de simulation plus riches nécessaires à un comportement intelligent. Pour combler cette lacune, nous introduisons WR-Arena, un benchmark complet pour l'évaluation des WMs selon trois dimensions fondamentales de la simulation du monde futur : (i) la fidélité de la simulation d'action, c'est-à-dire la capacité à interpréter et à suivre des instructions sémantiquement riches et multi-étapes, tout en générant des trajectoires contrefactuelles diversifiées ; (ii) la prévision à long horizon, soit la capacité de maintenir des simulations précises, cohérentes et physiquement plausibles sur de longues séquences d'interactions ; et (iii) le raisonnement et la planification simulatifs, c'est-à-dire la capacité de soutenir un raisonnement orienté vers un objectif en simulant, comparant et sélectionnant parmi des futurs alternatifs, aussi bien dans des environnements structurés que ouverts. Nous établissons une taxonomie de tâches et constituons des ensembles de données diversifiés conçus pour sonder ces capacités, dépassant ainsi les évaluations monolithiques et purement perceptuelles. Grâce à des expériences extensives menées sur des WMs de l'état de l'art, nos résultats révèlent un écart substantiel entre les modèles actuels et le raisonnement hypothétique au niveau humain, et établissent WR-Arena à la fois comme un outil de diagnostic et comme un cadre directeur pour faire progresser la prochaine génération de modèles du monde, capables d'une compréhension robuste, de prévisions fiables et d'actions intentionnelles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp