Command Palette
Search for a command to run...
WorldVLA: Auf dem Weg zu einem autoregressiven Aktionsweltmodell

Abstract
Wir stellen WorldVLA vor, ein autoregressives Aktionsweltmodell, das die Aktionserkennung und -generierung sowie die Bildverarbeitung vereint. Unser WorldVLA integriert das Vision-Language-Action (VLA)-Modell und das Weltmodell in einem einzigen Rahmen. Das Weltmodell nutzt sowohl die Aktionserkennung als auch die Bildverarbeitung, um zukünftige Bilder vorherzusagen, wobei das Ziel ist, die zugrunde liegende Physik der Umgebung zu lernen, um die Aktionsgenerierung zu verbessern. Gleichzeitig generiert das Aktionen-Modell nachfolgende Aktionen auf Basis von Bildbeobachtungen, was der visuellen Verarbeitung hilft und somit die visuelle Generierung des Weltmodells unterstützt. Wir zeigen, dass WorldVLA stand-alone-Aktions- und Weltmodelle übertrifft und unterstreichen die gegenseitige Verbesserung zwischen dem Weltmodell und dem Aktionsmodell. Darüber hinaus stellen wir fest, dass die Leistung des Aktionsmodells bei der autoregressiven Generierung von Aktionssequenzen nachlässt. Dieses Phänomen kann auf das begrenzte Generalisierungsvermögen des Modells für die Aktionsvorhersage zurückgeführt werden, was zu einer Fehlerfortpflanzung von früheren auf nachfolgende Aktionen führt. Um dieses Problem zu lösen, schlagen wir eine Aufmerksamkeitsmaske-Strategie vor, die selektiv frühere Aktionen während der Generierung der aktuellen Aktion maskiert. Diese Strategie zeigt erhebliche Leistungsverbesserungen in der Aufgabe der Aktionsblockgenerierung.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.