Command Palette
Search for a command to run...
Räumliche Beeinflussung: Implizite Ausrichtung räumlicher Repräsentationen für visuelle-Sprache-Aktions-Modelle
Fuhao Li Wenxuan Song Han Zhao Jingbo Wang Pengxiang Ding Donglin Wang Long Zeng Haoang Li

Abstract
Vision-Language-Action-(VLA)-Modelle haben in jüngster Zeit ein hohes Potenzial dafür gezeigt, Robotern die Fähigkeit zu verleihen, Sprachanweisungen zu verstehen und präzise Aktionen auszuführen. Allerdings basieren die meisten VLA-Modelle auf Vision-Sprache-Modellen, die ausschließlich auf 2D-Daten vortrainiert wurden und daher eine genaue räumliche Wahrnehmung fehlt, was ihre Anwendung in der 3D-physikalischen Welt einschränkt. Bestehende Ansätze versuchen, explizite 3D-Sensordaten wie Tiefenkarten oder Punktwolken zu integrieren, stoßen jedoch auf Herausforderungen durch Sensorrauschen, heterogene Hardware und unvollständige Tiefenabdeckung in den verfügbaren Datensätzen. Alternativ vorgeschlagene Methoden, die 3D-Kontextinformationen aus 2D-Bildern schätzen, leiden unter der begrenzten Leistungsfähigkeit von Tiefenschätzern. Wir stellen Spatial Forcing (SF) vor, eine einfache, aber effektive Ausrichtungsstrategie, die VLA-Modelle implizit dazu anleitet, räumliches Verständnis zu entwickeln, ohne auf explizite 3D-Eingaben oder Tiefenschätzer angewiesen zu sein. SF aligniert die intermediären visuellen Embeddings von VLA-Modellen mit geometrischen Darstellungen, die von vortrainierten 3D-Grundmodellen erzeugt werden. Durch die Durchsetzung dieser Ausrichtung in intermediären Schichten leitet SF die Kodierung reicher räumlicher Informationen an, was die Präzision von Aktionen verbessert. Umfangreiche Experimente in simulierten und realen Umgebungen zeigen, dass SF sowohl in 2D- als auch in 3D-basierten VLA-Modellen die bisher besten Ergebnisse erzielt. Zudem beschleunigt SF die Trainingszeit um bis zu 3,8-fach und steigert die Dateneffizienz bei einer Vielzahl robotischer Aufgaben. Die Projektseite ist unter https://spatial-forcing.github.io/ zu finden.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.