HyperAIHyperAI

Command Palette

Search for a command to run...

Modèle d'action Mondial WAM

Date

il y a 4 heures

Organisation

NVIDIA

URL du document

arxiv.org

Le World Action Model (WAM) est une nouvelle architecture de modèle fondamental d'IA pour les domaines de l'intelligence incarnée et de la robotique. Il a été proposé pour la première fois par NVIDIA en février 2026, avec des recherches connexes publiées dans un article intitulé «Les modèles d'action mondiaux sont des politiques sans coup d'envoiCet article propose DreamZero (un modèle de base pour robot à 14 paramètres) et utilise, pour la première fois, explicitement le terme « World Action Model » (WAM) pour définir cette architecture novatrice. Il souligne que, contrairement aux VLA traditionnels (qui ne modélisent que des actions ponctuelles), le WAM est un modèle de base qui hérite directement des connaissances préalables du monde physique en prédisant conjointement l'état futur du monde (flux vidéo) et les actions du robot, ce qui lui confère une capacité de généralisation zéro-shot extrêmement performante (politique zéro-shot). Par ailleurs, NVIDIA a publié un article intitulé « … »Qu'est-ce qu'un modèle d'action mondiale ??Des explications supplémentaires sont nécessaires.

En mai 2026, l'Université Fudan, l'Académie de l'innovation de Shanghai et l'Université nationale de Singapour ont publié un article intitulé « ... »Modèles d'action mondiaux : la prochaine frontière de l'IA incarnéeL'article propose une revue systématique, définissant explicitement WAM comme : « Un modèle fondamental incarné qui unifie la modélisation prédictive des états avec la génération d'actions, dans le but de former une distribution conjointe des états et actions futurs, et non seulement les actions elles-mêmes. »

Avec NVIDIA DreamZero Par exemple, l'architecture sous-jacente de WAM est en réalité un modèle de génération vidéo massive (basé sur un réseau dorsal de diffusion vidéo, tel que Wan2.1 ou NVIDIA Cosmos). Le flux de travail principal peut être divisé en trois étapes :

Entrée : Écran actuel + commande vocale + état actuel du robot
⬇️
[Modèle de base WAM (tel que l'architecture DiT à 14 milliards de paramètres)]
⬇️
Une passe vers l'avant :

  1. Images vidéo futures prédites (à quoi ressemblera le monde prochainement)
  2. Les mouvements précis du robot dans chaque image (trajectoires articulaires à 6 degrés de liberté)

Grâce à cette prédiction conjointe, les actions et l'évolution du monde physique sont inextricablement liées. Pour qu'un robot génère des actions correctes, il doit concevoir mentalement des séquences vidéo futures conformes aux lois de la physique (gravité, frottement, relations d'occlusion).

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp