3D Diffuser Actor: Policy Diffusion mit 3D-Szenendarstellungen

Wir kombinieren Diffusionspolitiken mit 3D-Szenendarstellungen für die Robotermanipulation. Diffusionspolitiken lernen die Aktionsverteilung bedingt auf den Zustand des Roboters und der Umgebung mithilfe bedingter Diffusionsmodelle. In jüngster Zeit haben sie sich gegenüber deterministischen sowie alternativen Methoden zur Lernung von zustandsbedingten Aktionsverteilungen als überlegen erwiesen. 3D-Roboterpolitiken nutzen 3D-Szenenmerkmale, die aus einer oder mehreren Kamerasicht durch erfasste Tiefeninformationen aggregiert werden. Sie haben sich gegenüber ihren 2D-Gegenstücken in Bezug auf die Generalisierbarkeit über verschiedene Kameraperspektiven als überlegen erwiesen. Wir vereinen diese beiden Forschungslinien und stellen den 3D Diffuser Actor vor, eine neuronale Politikarchitektur, die bei gegebener Sprachanweisung eine 3D-Darstellung der visuellen Szene erstellt und diese zur iterativen Entrauschung von 3D-Drehungen und Translationen für den Endeffektor des Roboters nutzt. In jeder Entrauschungsschritt repräsentieren wir Schätzungen der Endeffektorposition als 3D-Szenentoken und schätzen für jedes dieser Tokens den 3D-Translations- und Rotationsfehler vorher, indem wir sie mittels 3D-relativer Aufmerksamkeit gegenüber anderen 3D-visuellen und sprachlichen Tokens featurisieren. Der 3D Diffuser Actor erreicht eine neue State-of-the-Art-Leistung auf RLBench mit einer absoluten Verbesserung von 16,3 % gegenüber der aktuellen SOTA in einer Mehrkamera-Szenario und einer Verbesserung von 13,1 % in einer Einzelkamera-Szenario. Auf dem CALVIN-Benchmark übertrifft er die aktuelle SOTA im Szenario der zero-shot-Unseen-Scene-Generalisierung, indem er 0,2 weitere Aufgaben erfolgreich ausführen kann – eine relative Steigerung um 7 %. Zudem funktioniert das Modell auch in der realen Welt auf Basis nur weniger Demonstrationen. Wir analysieren die architektonischen Designentscheidungen unseres Modells, wie etwa die 3D-Szenenfeaturisierung und die 3D-relationale Aufmerksamkeit, und zeigen, dass alle diese Komponenten zur Verbesserung der Generalisierung beitragen. Unsere Ergebnisse deuten darauf hin, dass 3D-Szenendarstellungen und leistungsfähige generative Modellierung Schlüsselkomponenten für eine effiziente Robotermanipulation aus Demonstrationen sind.