HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

WorldVLA: Auf dem Weg zu einem autoregressiven Aktionsweltmodell

WorldVLA: Auf dem Weg zu einem autoregressiven Aktionsweltmodell

Abstract

Wir stellen WorldVLA vor, ein autoregressives Aktionsweltmodell, das die Aktionserkennung und -generierung sowie die Bildverarbeitung vereint. Unser WorldVLA integriert das Vision-Language-Action (VLA)-Modell und das Weltmodell in einem einzigen Rahmen. Das Weltmodell nutzt sowohl die Aktionserkennung als auch die Bildverarbeitung, um zukünftige Bilder vorherzusagen, wobei das Ziel ist, die zugrunde liegende Physik der Umgebung zu lernen, um die Aktionsgenerierung zu verbessern. Gleichzeitig generiert das Aktionen-Modell nachfolgende Aktionen auf Basis von Bildbeobachtungen, was der visuellen Verarbeitung hilft und somit die visuelle Generierung des Weltmodells unterstützt. Wir zeigen, dass WorldVLA stand-alone-Aktions- und Weltmodelle übertrifft und unterstreichen die gegenseitige Verbesserung zwischen dem Weltmodell und dem Aktionsmodell. Darüber hinaus stellen wir fest, dass die Leistung des Aktionsmodells bei der autoregressiven Generierung von Aktionssequenzen nachlässt. Dieses Phänomen kann auf das begrenzte Generalisierungsvermögen des Modells für die Aktionsvorhersage zurückgeführt werden, was zu einer Fehlerfortpflanzung von früheren auf nachfolgende Aktionen führt. Um dieses Problem zu lösen, schlagen wir eine Aufmerksamkeitsmaske-Strategie vor, die selektiv frühere Aktionen während der Generierung der aktuellen Aktion maskiert. Diese Strategie zeigt erhebliche Leistungsverbesserungen in der Aufgabe der Aktionsblockgenerierung.

Code-Repositories

alibaba-damo-academy/worldvla
Offiziell
pytorch
In GitHub erwähnt

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
WorldVLA: Auf dem Weg zu einem autoregressiven Aktionsweltmodell | Forschungsarbeiten | HyperAI