Raumpolitik: Steuerung visuomotorischer robotischer Manipulation mittels raumbewusster Modellierung und Schlussfolgerung

Visionzentrierte hierarchische verkörperte Modelle haben ein großes Potenzial für die Steuerung von Robotern über lange Zeiträume gezeigt. Bestehende Ansätze verfügen jedoch über eine eingeschränkte räumliche Wahrnehmung, was ihre Effektivität bei der Verbindung visueller Planung mit ausführbaren Steuerungshandlungen in komplexen Umgebungen einschränkt. Um dieses Problem zu lösen, schlagen wir Spatial Policy (SP) vor – einen einheitlichen, räumlich bewussten visuomotorischen Rahmen für die Roboter-Manipulation durch explizite räumliche Modellierung und Schlussfolgerung. Konkret entwerfen wir zunächst ein räumlich bedingtes Modul zur Generierung verkörperten Videos, das räumlich gesteuerte Vorhersagen über eine räumliche Planungstabelle ermöglicht. Anschließend stellen wir ein auf Raumbeziehungen basierendes Modul zur Handlungsprognose vor, das koordinierte, ausführbare Aktionen ableitet. Schließlich führen wir eine räumliche Schlussfolgerungs-Rückkopplungsstrategie ein, die die räumliche Planungstabelle durch eine zweistufige Neuplanung verfeinert. Ausführliche Experimente zeigen, dass SP die derzeit besten State-of-the-Art-Baselines deutlich übertrifft und im Durchschnitt eine Verbesserung um 33,0 % gegenüber der besten Baseline erreicht. Mit einer durchschnittlichen Erfolgsquote von 86,7 % bei 11 unterschiedlichen Aufgaben erhöht SP erheblich die Praktikabilität verkörperter Modelle für Anwendungen in der Robotiksteuerung. Der Quellcode und die Modellcheckpoint-Dateien sind unter folgender URL verfügbar: https://...