HyperAIHyperAI

Command Palette

Search for a command to run...

TraceVLA: Visuelle Spurverstärkung verbessert räumlich-zeitliches Bewusstsein für allgemeine Roboterpolicys

Ruijie Zheng Yongyuan Liang Shuaiyi Huang Jianfeng Gao Hal Daumé III Andrey Kolobov Furong Huang Jianwei Yang

Zusammenfassung

Obwohl große visuelle-sprachliche-Aktionsmodelle (VLA), die auf umfangreichen Robotik-Datensätzen vortrainiert wurden, vielversprechende allgemeine Strategien für das maschinelle Lernen in der Robotik bieten, haben sie immer noch Schwierigkeiten mit räumlich-zeitlichen Dynamiken in interaktiver Robotik. Dies macht sie weniger effektiv bei der Bearbeitung komplexer Aufgaben wie Manipulation. In dieser Arbeit stellen wir visuelles Spur-Prompting vor, einen einfachen und dennoch effektiven Ansatz, um die räumlich-zeitliche Wahrnehmung von VLA-Modellen für Aktionsvorhersagen durch visuelle Kodierung von Zustand-Aktions-Trajektorien zu verbessern. Wir entwickeln ein neues TraceVLA-Modell, indem wir OpenVLA auf unserem selbst gesammelten Datensatz von 150.000 Roboter-Manipulations-Trajektorien unter Verwendung des visuellen Spur-Promptings weitertrainieren. Die Bewertungen von TraceVLA in 137 Konfigurationen in SimplerEnv und an 4 Aufgaben mit einem physischen WidowX-Roboter zeigen eine Stand-der-Kunst-Leistung, wobei TraceVLA im Vergleich zu OpenVLA um 10 % in SimplerEnv und um 3,5-fach bei realen Robotaufgaben überlegen ist und eine robuste Generalisierung über verschiedene Embodiments und Szenarien zeigt. Um die Effektivität und Allgemeinheit unserer Methode weiter zu validieren, präsentieren wir ein kompaktes VLA-Modell basierend auf dem 4B Phi-3-Vision (4B Phi-3-Vision), das auf dem Open-X-Embodiment vortrainiert wurde und auf unserem Datensatz weitertrainiert wurde. Dieses Modell erreicht die Leistung des 7B OpenVLA-Baselines und verbessert gleichzeitig erheblich die Inferenz-Effizienz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
TraceVLA: Visuelle Spurverstärkung verbessert räumlich-zeitliches Bewusstsein für allgemeine Roboterpolicys | Paper | HyperAI