Act3D: 3D Feature Field Transformers für Multi-Task Roboter-Manipulation

3D-perzeptive Darstellungen eignen sich hervorragend für die Manipulation durch Roboter, da sie Ocklusionen leicht kodieren und die räumliche Schlussfolgerung vereinfachen. Viele Manipulationsaufgaben erfordern eine hohe räumliche Präzision bei der Vorhersage der Endeffektorposition, was typischerweise hochauflösende 3D-Funktionsgitter erfordert, die rechenintensiv zu verarbeiten sind. Daher operieren die meisten Manipulationspolitiken direkt in 2D und verzichten auf 3D-induktive Vorannahmen. In diesem Paper stellen wir Act3D vor, eine Manipulationspolitik-Transformer-Architektur, die den Arbeitsraum des Roboters mittels eines 3D-Funktionsfelds mit adaptiver Auflösung darstellt, die jeweils an die Anforderungen der Aufgabe angepasst ist. Das Modell hebt 2D-vortrainierte Merkmale mittels erfasster Tiefeninformation in 3D hoch und wendet darauf eine Aufmerksamkeitsmechanik an, um Merkmale für abgetastete 3D-Punkte zu berechnen. Es tastet 3D-Punktgitter in einer grob-zu-fein-Methode ab, featurisiert sie mittels relativer Positionsaufmerksamkeit und wählt aus, wo im nächsten Schritt die Punktabtastung konzentriert werden soll. Auf diese Weise berechnet es effizient 3D-Aktionskarten mit hoher räumlicher Auflösung. Act3D erreicht eine neue State-of-the-Art-Leistung im RL-Bench, einem etablierten Benchmark für Manipulation, wobei es eine absolute Verbesserung von 10 % gegenüber der vorherigen SOTA-2D-Mehrsicht-Politik auf 74 RLBench-Aufgaben und eine Verbesserung von 22 % mit nur einem Drittel der Rechenressourcen gegenüber der vorherigen SOTA-3D-Politik erzielt. In ablativen Experimenten quantifizieren wir die Bedeutung der relativen räumlichen Aufmerksamkeit, großer, vision-sprachlich vortrainierter 2D-Backbones sowie Gewichtsbindung über die Aufmerksamkeitsmechanismen von grob zu fein. Der Quellcode und Demonstrationsvideos sind auf unserer Projektwebsite verfügbar: https://act3d.github.io/.