HyperAIHyperAI

Command Palette

Search for a command to run...

Weltaktionsmodell WAM

Datum

vor 4 Stunden

Organisation

NVIDIA

Paper-URL

arxiv.org

Das World Action Model (WAM) ist eine neuartige KI-Grundlagenmodellarchitektur für die Bereiche verkörperte Intelligenz und Robotik. Es wurde erstmals im Februar 2026 von NVIDIA vorgeschlagen, die zugehörige Forschung wurde in einem Artikel mit dem Titel „Weltaktionsmodelle sind Null-Schuss-PolitikenDie vorliegende Arbeit stellt DreamZero (ein 14-Parameter-Robotik-Grundlagenmodell) vor und verwendet erstmals explizit den Begriff „World Action Model“ (WAM) zur Definition dieser neuartigen Architektur. Im Gegensatz zu herkömmlichen VLA-Modellen (die lediglich Einzelschrittaktionen abbilden) ist WAM ein Grundlagenmodell, das direkt Vorwissen über die physikalische Welt übernimmt, indem es den zukünftigen Weltzustand (Videostream) und die Roboteraktionen gemeinsam vorhersagt. Dadurch wird eine extrem hohe Zero-Shot-Generalisierungsfähigkeit (Zero-Shot-Policy) erreicht. Darüber hinaus veröffentlichte NVIDIA offiziell einen Eintrag mit dem Titel „…“.Was ist ein Weltaktionsmodell??Weitere Erläuterungen sind erforderlich.

Im Mai 2026 veröffentlichten die Fudan-Universität, die Shanghai Innovation Academy und die Nationale Universität von Singapur eine Arbeit mit dem Titel „...“.Weltaktionsmodelle: Die nächste Grenze der verkörperten KIDer Artikel bietet einen systematischen Überblick und definiert WAM explizit als: „Ein verkörpertes Grundlagenmodell, das prädiktive Zustandsmodellierung mit Aktionsgenerierung vereint, mit dem Ziel, eine gemeinsame Verteilung zukünftiger Zustände und Aktionen zu trainieren, nicht nur die Aktionen selbst.“

Mit NVIDIA DreamZero Die zugrundeliegende Architektur von WAM ist beispielsweise ein massives Videogenerierungsmodell (basierend auf einem Videodiffusions-Backbone-Netzwerk wie Wan2.1 oder NVIDIA Cosmos). Der Kern-Workflow lässt sich in drei Schritte unterteilen:

Eingabe: Aktueller Bildschirm + Sprachbefehl + aktueller Status des Roboters
⬇️
[WAM-Kernmodell (wie z. B. die 14B-Parameter-DiT-Architektur)]
⬇️
Ein Vorwärtspass:

  1. Prognostizierte zukünftige Videobilder (wie die Welt als Nächstes aussehen wird)
  2. Die präzisen Bewegungen des Roboters in jedem Einzelbild (6-DOF-Gelenktrajektorien)

Durch diese gemeinsame Vorhersage sind Handlungen und die Entwicklung der physischen Welt untrennbar miteinander verbunden. Damit ein Roboter korrekte Handlungen ausführen kann, muss er in seinem Kopf korrekte Zukunftsszenarien generieren, die den Gesetzen der Physik (Schwerkraft, Reibung, Verdeckungsverhältnisse) entsprechen.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp