SpatialVLA: Erkundung räumlicher Repräsentationen für ein visuell-sprachliches Aktionsschema

In dieser Arbeit behaupten wir, dass die räumliche Wahrnehmung der Schlüsselpunkt bei der Robotermanipulation ist, und schlagen SpatialVLA vor, um effektive räumliche Darstellungen für das Robot-Grundmodell zu erforschen. Insbesondere führen wir die Ego3D-Positionscodierung ein, um 3D-Informationen in die visuellen Eingabewahrnehmungen des Modells für visuelle Sprache und Aktion (Visual-Language-Action Model) zu integrieren, und schlagen adaptive Aktionengitter (Adaptive Action Grids) vor, um räumliche Bewegungsaktionen des Roboters mit anpassbaren diskretisierten Aktionengittern darzustellen. Dies erleichtert das Lernen übertragbarer und verallgemeinerter räumlicher Aktionswissen für die Steuerung verschiedener Roboter.SpatialVLA wird zunächst auf einem Visio-Sprachmodell mit 1,1 Millionen realen Roboter-Episoden vortrainiert, um eine allgemeine Manipulationsstrategie in verschiedenen Roboterumgebungen und Aufgaben zu erlernen. Nach dem Vortraining wird SpatialVLA direkt verwendet, um zahlreiche Aufgaben im Zero-Shot-Modus auszuführen. Die überlegenen Ergebnisse sowohl in Simulationen als auch bei realen Robotern zeigen seinen Vorteil bei der Inferenz komplexer Roboterbewegungstrajectoires sowie seine starke Fähigkeit zur in-domänigen Verallgemeinerung von mehreren Aufgaben. Wir demonstrieren ferner, dass die vorgeschlagenen adaptiven Aktionengitter eine neue und effektive Methode bieten, das vortrainierte SpatialVLA-Modell für neue Simulationsszenarien und reale Anwendungen weiterzutrainieren. Dabei werden die vorher gelernten Aktionengitter neu diskretisiert, um roboterspezifische räumliche Bewegungsaktionen neuer Szenarien zu erfassen.Die überlegenen Ergebnisse aus umfangreichen Evaluierungen unterstreichen die außergewöhnliche Fähigkeit zur in-domänigen Verallgemeinerung und zur Adaptation außerhalb der Domäne, was den entscheidenden Nutzen der vorgeschlagenen räumlich bewussten Darstellungen für das Lernen allgemeiner Roboterstrategien hervorhebt. Alle Details und Codes werden Open Source veröffentlicht.