X-VLA: Weich-Prompt-basierter Transformer als skalierbarer visuell-sprachlich-handelnder Modell für verschiedene Körperformen
X-VLA: Weich-Prompt-basierter Transformer als skalierbarer visuell-sprachlich-handelnder Modell für verschiedene Körperformen

Abstract
Erfolgreiche allgemeine Vision-Sprache-Aktion-(VLA-)Modelle beruhen auf einer effektiven Schulung über eine Vielzahl unterschiedlicher Roboterplattformen unter Verwendung großer, über verschiedene Embodiments hinweg heterogener Datensätze. Um die Heterogenität reicher und vielfältiger roboterbasierter Datensources zu fördern und auszunutzen, stellen wir einen neuen Ansatz mit weichen Prompten vor, der nur minimal zusätzliche Parameter erfordert. Dabei werden Konzepte des Prompt-Lernens in das lernende Verfahren über verschiedene Embodiments hinweg integriert, und für jede unterschiedliche Datensource werden separate, lernbare Embeddings eingeführt. Diese Embeddings fungieren als embodimentspezifische Prompts und ermöglichen gemeinsam eine effektive Nutzung der unterschiedlichen über-Embodiment-Charakteristika durch VLA-Modelle. Unser neuartiges X-VLA, eine elegante Architektur auf Basis von Flow-Matching, basiert ausschließlich auf soft-promptierten Standard-Transformer-Encodern und vereint Skalierbarkeit mit Einfachheit. In Evaluierungen über sechs Simulationen sowie drei physische Roboter zeigt unsere Instanziierung X-VLA-0.9B (0,9 Milliarden Parameter) gleichzeitig Spitzenleistung über eine breite Palette von Benchmarks und erzielt herausragende Ergebnisse auf einem weiten Spektrum an Fähigkeiten – von flexibler Geschicklichkeit bis hin zu schneller Anpassung an verschiedene Embodiments, Umgebungen und Aufgaben.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.