HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 10 jours

PAN : Un Modèle Mondial pour la Simulation Mondiale Générale, Interagissable et à Long Terme

PAN : Un Modèle Mondial pour la Simulation Mondiale Générale, Interagissable et à Long Terme

Résumé

Un modèle du monde permet à un agent intelligent d’imaginer, de prédire et de raisonner sur l’évolution du monde en réponse à ses propres actions, afin de planifier et de concevoir des stratégies. Bien que les modèles récents de génération vidéo produisent des séquences visuelles réaliste, ils fonctionnent généralement selon une approche « prompt vers vidéo complète » sans contrôle causal, interactivité ni cohérence à long terme, des capacités essentielles pour un raisonnement intentionnel. En revanche, les approches existantes de modélisation du monde se concentrent souvent sur des domaines restreints (par exemple, dynamiques physiques, jeux ou scènes 3D), avec une profondeur et une maîtrise limitées, et peinent à s’adapter à des environnements variés et à différents formats d’interaction. Dans ce travail, nous introduisons PAN, un modèle du monde général, interactif et à horizon long, capable de prédire l’évolution future de l’environnement à travers une simulation vidéo de haute qualité conditionnée par l’historique et des actions exprimées en langage naturel. PAN repose sur une architecture de Prédiction Latente Générative (GLP) qui combine un noyau dynamique latente autoregressif fondé sur un grand modèle linguistique (LLM), permettant d’ancrer la simulation dans des connaissances textuelles étendues et d’assurer une conditionnalité sur des actions spécifiées en langage naturel, avec un décodeur de diffusion vidéo qui reconstruit des observations visuelles riches en détails perceptuels et cohérentes dans le temps. Cette architecture permet ainsi une unification entre le raisonnement dans l’espace latent (imagination) et les dynamiques du monde réalisables (réalité). Entraîné sur de vastes paires vidéo-action couvrant des domaines divers, PAN soutient une simulation ouverte et conditionnée par des actions, caractérisée par une dynamique cohérente et à long terme. Des expériences étendues montrent que PAN atteint des performances solides en simulation conditionnée par des actions, en prévision à long terme et en raisonnement simulé, surpassant d’autres générateurs vidéo et modèles du monde, marquant ainsi une avancée vers des modèles du monde généraux capables de simuler de manière prédictive l’évolution future du monde pour le raisonnement et l’action.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
PAN : Un Modèle Mondial pour la Simulation Mondiale Générale, Interagissable et à Long Terme | Articles de recherche | HyperAI