vor 2 Monaten

TraceVLA: Visuelle Spurverstärkung verbessert räumlich-zeitliches Bewusstsein für allgemeine Roboterpolicys

Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang

Abstract

Obwohl große visuelle-sprachliche-Aktionsmodelle (VLA), die auf umfangreichen Robotik-Datensätzen vortrainiert wurden, vielversprechende allgemeine Strategien für das maschinelle Lernen in der Robotik bieten, haben sie immer noch Schwierigkeiten mit räumlich-zeitlichen Dynamiken in interaktiver Robotik. Dies macht sie weniger effektiv bei der Bearbeitung komplexer Aufgaben wie Manipulation. In dieser Arbeit stellen wir visuelles Spur-Prompting vor, einen einfachen und dennoch effektiven Ansatz, um die räumlich-zeitliche Wahrnehmung von VLA-Modellen für Aktionsvorhersagen durch visuelle Kodierung von Zustand-Aktions-Trajektorien zu verbessern. Wir entwickeln ein neues TraceVLA-Modell, indem wir OpenVLA auf unserem selbst gesammelten Datensatz von 150.000 Roboter-Manipulations-Trajektorien unter Verwendung des visuellen Spur-Promptings weitertrainieren. Die Bewertungen von TraceVLA in 137 Konfigurationen in SimplerEnv und an 4 Aufgaben mit einem physischen WidowX-Roboter zeigen eine Stand-der-Kunst-Leistung, wobei TraceVLA im Vergleich zu OpenVLA um 10 % in SimplerEnv und um 3,5-fach bei realen Robotaufgaben überlegen ist und eine robuste Generalisierung über verschiedene Embodiments und Szenarien zeigt. Um die Effektivität und Allgemeinheit unserer Methode weiter zu validieren, präsentieren wir ein kompaktes VLA-Modell basierend auf dem 4B Phi-3-Vision (4B Phi-3-Vision), das auf dem Open-X-Embodiment vortrainiert wurde und auf unserem Datensatz weitertrainiert wurde. Dieses Modell erreicht die Leistung des 7B OpenVLA-Baselines und verbessert gleichzeitig erheblich die Inferenz-Effizienz.