HyperAIHyperAI
vor 11 Tagen

Zu allgemeinen Roboterpolitiken: Was zählt bei der Entwicklung von Vision-Language-Action-Modellen

Xinghang Li, Peiyan Li, Minghuan Liu, Dong Wang, Jirong Liu, Bingyi Kang, Xiao Ma, Tao Kong, Hanbo Zhang, Huaping Liu
Zu allgemeinen Roboterpolitiken: Was zählt bei der Entwicklung von Vision-Language-Action-Modellen
Abstract

Foundation Vision-Language Models (VLMs) zeigen starke Fähigkeiten im Bereich der multimodalen Repräsentationslernung, Verständnis und Schlussfolgerung. Durch die Integration von Aktionskomponenten in VLMs entstehen natürlicherweise Vision-Language-Action-Modelle (VLAs), die ebenfalls vielversprechende Leistungen erzielen. Bisherige Arbeiten haben die Wirksamkeit und Generalisierbarkeit von VLAs in zahlreichen Szenarien und Aufgaben belegt. Dennoch ist der Übergang von VLMs zu VLAs keineswegs trivial, da bestehende VLAs sich in ihren Architekturen (Backbones), der Formulierung der Aktionsvorhersage, den Datenverteilungen und den Trainingsrezepten unterscheiden. Dies führt zu einer Lücke in der systematischen Verständnis der Designentscheidungen bei VLAs. In dieser Arbeit offenbaren wir die entscheidenden Faktoren, die die Leistung von VLAs maßgeblich beeinflussen, und konzentrieren uns auf die Beantwortung dreier zentraler Designfragen: Welches Backbone sollte ausgewählt werden, wie sollte die VLA-Architektur formuliert werden, und wann sollte Kreuz-Embodiment-Daten hinzugefügt werden? Die erhaltenen Ergebnisse überzeugen uns nachhaltig davon, warum VLAs notwendig sind, und motivieren uns, eine neue Familie von VLAs, die RoboVLMs, zu entwickeln, die nur minimale manuelle Gestaltung erfordern und in drei Simulationsaufgaben sowie realen Experimenten eine neue state-of-the-art-Leistung erreichen. Durch umfangreiche Experimente, die über acht verschiedene VLM-Backbones, vier Politikarchitekturen und mehr als 600 unterschiedlich konfigurierte Experimente umfassen, liefern wir einen detaillierten Leitfaden für zukünftige VLA-Entwicklungen. Zusätzlich zur Studie veröffentlichen wir den hochflexiblen RoboVLMs-Framework, der die einfache Integration neuer VLMs sowie freie Kombination verschiedener Designentscheidungen ermöglicht, um zukünftige Forschung zu fördern. Alle Details – einschließlich Code, Modelle, Datensätze und Werkzeuge – sowie detaillierte Trainings- und Evaluierungsrezepte sind öffentlich unter robovlms.github.io verfügbar.

Zu allgemeinen Roboterpolitiken: Was zählt bei der Entwicklung von Vision-Language-Action-Modellen | Neueste Forschungsarbeiten | HyperAI