Perceiver-Actor: Ein Multi-Task-Transformer für die robotische Manipulation

Transformers haben die Bildverarbeitung und die Verarbeitung natürlicher Sprache durch ihre Skalierbarkeit angesichts großer Datensätze revolutioniert. Doch bei der roboterbasierten Manipulation sind Daten sowohl begrenzt als auch kostspielig. Kann die Manipulation dennoch von Transformers profitieren, wenn das Problem angemessen formuliert wird? Wir untersuchen diese Frage anhand von PerAct, einem sprachgesteuerten, verhaltensbasierten Klon-Agenten für mehrfachgestellte 6-DoF-Manipulation. PerAct kodiert Sprachziele und RGB-D-Voxelbeobachtungen mittels eines Perceiver-Transformers und generiert diskrete Aktionen durch die „Erkennung der nächsten besten Voxel-Aktion“. Im Gegensatz zu Ansätzen, die auf 2D-Bildern arbeiten, bietet der voxelisierte 3D-Beobachtungs- und Aktionsraum eine starke strukturelle Priorität, die die effiziente Lernung von 6-DoF-Aktionen ermöglicht. Mit dieser Formulierung trainieren wir einen einzigen, mehrfach nutzbaren Transformer für 18 RLBench-Aufgaben (mit 249 Variationen) und 7 realweltbasierte Aufgaben (mit 18 Variationen) – jeweils aus nur wenigen Demonstrationen pro Aufgabe. Unsere Ergebnisse zeigen, dass PerAct eine deutlich bessere Leistung erzielt als unstrukturierte Bild-zu-Aktion-Agenten sowie 3D-ConvNet-Baselines bei einer Vielzahl von Tisch-Aufgaben.