Command Palette
Search for a command to run...
Qwen-VLA: Vereinheitlichung der Vision-, Sprach- und Aktionsmodellierung über Aufgaben, Umgebungen und Roboter-Embodiments hinweg
Qwen-VLA: Vereinheitlichung der Vision-, Sprach- und Aktionsmodellierung über Aufgaben, Umgebungen und Roboter-Embodiments hinweg
Zusammenfassung
Verkörperte Intelligenz wird häufig durch spezialisierte Modelle für einzelne Aufgaben wie Manipulation oder Navigation untersucht, was zu fragmentierten Fähigkeiten und einer begrenzten Generalisierung über Aufgaben, Umgebungen und Roboter-Embodiments hinweg führt. In dieser Arbeit untersuchen wir, ob heterogene Probleme der verkörperten Entscheidungsfindung in einem einzigen Vision-Language-Action-Modell vereinheitlicht werden können. Wir präsentieren Qwen-VLA, ein vereinheitlichtes verkörpertes Foundation-Modell, das den Vision-Language-Modellierungs-Stack von Qwen von der Wahrnehmung, dem Verständnis und dem Schlussfolgern auf die kontinuierliche Generierung von Aktionen und Trajektorien durch einen DiT-basierten Aktions-Decoder erweitert. Qwen-VLA wird mit einer großskaligen gemeinsamen Pretraining-Strategie über diverse Datenquellen trainiert, darunter Roboter-Manipulationstrajektorien, menschliche egozentrische Demonstrationen, synthetische Simulationsdaten, Vision-und-Sprache-Navigationsdaten, trajektorienzentrierte Supervision sowie auxiliary Vision-Language-Daten. Zur Unterstützung mehrerer Roboterplattformen führen wir ein embodiment-aware Prompt Conditioning ein, bei dem robotspezifische textliche Beschreibungen das aktuelle Embodiment sowie die Steuerungskonvention spezifizieren. Darüber hinaus fassen wir Manipulation, Navigation und Trajektorienvorhersage in einem vereinheitlichten Rahmenwerk zur Vorhersage von Aktionen und Trajektorien zusammen, das eine übertragbare visuelle Verankerung, räumliches Schlussfolgern und die kontinuierliche Generierung von Aktionen über verschiedene Roboter-Morphologien, Aufgabenfamilien und Umgebungen hinweg ermöglicht. Experimente auf Benchmarks für Manipulation, Navigation und trajektorienzentrierte Aufgaben zeigen eine konsistente Multi-Aufgaben-Leistung sowie eine Out-of-Distribution-Generalization unter Variationen in Szenenanordnung, Hintergrund, Beleuchtung, Objektkonfiguration und Roboter-Embodiment. Qwen-VLA-Instruct erzielt 97,9 % auf LIBERO, 73,7 % auf Simpler-WidowX, 86,1 %/87,2 % auf RoboTwin-Easy/Hard, 69,0 % OSR auf R2R, 59,6 % SR auf RxR, 76,9 % durchschnittlichen OOD-Erfolg in realweltlichen ALOHA-Experimenten sowie 26,6 % Zero-Shot-Erfolg bei der dynamischen Manipulation auf DOMINO.