SoFar: Sprachbasierte Orientierung verbindet räumliches Schließen und Objektmanipulation

Raumliche Intelligenz ist eine entscheidende Komponente der eingebetteten KI und fördert die Fähigkeit von Robotern, ihre Umgebung zu verstehen und mit ihr zu interagieren. Obwohl in jüngster Zeit Fortschritte die Fähigkeit von VLMs (Vision-Language-Modellen) zur Wahrnehmung von Objektpositionen und räumlichen Beziehungen verbessert haben, fehlt ihnen weiterhin die Fähigkeit, Objektorientierungen präzise zu verstehen – eine zentrale Voraussetzung für Aufgaben, die feinmechanische Manipulation erfordern. Die Überwindung dieser Einschränkung erfordert nicht nur geometrisches Schließen, sondern auch eine expressive und intuitive Darstellungsmöglichkeit für Orientierungen. In diesem Kontext schlagen wir vor, dass natürliche Sprache einen flexibleren Repräsentationsraum bietet als kanonische Bezugssysteme und daher besonders gut für robotische Systeme geeignet ist, die Anweisungen befolgen sollen. In diesem Paper führen wir den Begriff der semantischen Orientierung ein, der Objektorientierungen auf eine bezugssystemunabhängige Weise mittels natürlicher Sprache definiert (z. B. die „Einschubrichtung“ eines USB-Sticks oder die „Griffrichtung“ eines Messers). Um dies zu unterstützen, erstellen wir OrienText300K, eine großskalige Datensammlung aus 3D-Modellen, die mit semantischen Orientierungen annotiert sind und somit die Verbindung zwischen geometrischem Verständnis und funktionaler Semantik herstellt. Durch die Integration semantischer Orientierung in ein VLM-System ermöglichen wir es Robotern, Manipulationsaktionen sowohl unter Berücksichtigung von Position als auch von Orientierung zu generieren. Umfangreiche Experimente in Simulation und der realen Welt zeigen, dass unsere Methode die Fähigkeiten robotischer Manipulation erheblich verbessert, beispielsweise mit einer Genauigkeit von 48,7 % auf Open6DOR und 74,9 % auf SIMPLER.