il y a un jour

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang

Résumé

Les modèles du monde (World Models, WMs) sont conçus pour agir comme des simulateurs internes du monde réel, permettant aux agents de comprendre, d'anticiper et d'agir dans des environnements complexes. Les benchmarks existants pour les WMs restent étroitement centrés sur la prédiction de l'état suivant et la fidélité visuelle, négligeant ainsi les capacités de simulation plus riches nécessaires à un comportement intelligent. Pour combler cette lacune, nous introduisons WR-Arena, un benchmark complet pour l'évaluation des WMs selon trois dimensions fondamentales de la simulation du monde futur : (i) la fidélité de la simulation d'action, c'est-à-dire la capacité à interpréter et à suivre des instructions sémantiquement riches et multi-étapes, tout en générant des trajectoires contrefactuelles diversifiées ; (ii) la prévision à long horizon, soit la capacité de maintenir des simulations précises, cohérentes et physiquement plausibles sur de longues séquences d'interactions ; et (iii) le raisonnement et la planification simulatifs, c'est-à-dire la capacité de soutenir un raisonnement orienté vers un objectif en simulant, comparant et sélectionnant parmi des futurs alternatifs, aussi bien dans des environnements structurés que ouverts. Nous établissons une taxonomie de tâches et constituons des ensembles de données diversifiés conçus pour sonder ces capacités, dépassant ainsi les évaluations monolithiques et purement perceptuelles. Grâce à des expériences extensives menées sur des WMs de l'état de l'art, nos résultats révèlent un écart substantiel entre les modèles actuels et le raisonnement hypothétique au niveau humain, et établissent WR-Arena à la fois comme un outil de diagnostic et comme un cadre directeur pour faire progresser la prochaine génération de modèles du monde, capables d'une compréhension robuste, de prévisions fiables et d'actions intentionnelles.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a un jour

Agent

Benchmarks

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a un jour

Agent

Benchmarks

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Arène de Raisonnement Mondial

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang7 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Arène de Raisonnement Mondial

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang7 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Arène de Raisonnement Mondial

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang7 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang

Qiyue Gao Kun Zhou Jiannan Xiang Zihan Liu Dequan Yang Junrong Chen Arif Ahmad Cong Zeng Ganesh Bannur Xinqi Huang