Autoregressive Aktionenfolgen-Lernen für robotische Manipulation

Das Design einer universellen Policy-Architektur, die sich bei verschiedenen Robotern und Aufgabenkonfigurationen gut bewährt, bleibt eine wichtige Herausforderung. In dieser Arbeit adressieren wir dies, indem wir Roboteraktionen als sequentielle Daten darstellen und Aktionen durch autoregressive Sequenzmodellierung generieren. Bestehende autoregressive Architekturen generieren Endeffektor-Wegpunkte sequentiell als Worttoken im Sprachmodell, was sie auf niedrigfrequente Kontrollaufgaben beschränkt. Im Gegensatz zur Sprache sind Roboteraktionen heterogen und beinhalten oft kontinuierliche Werte – wie Gelenkpositionen, 2D-Pixelkoordinaten und Endeffektor-Posen – die sich nicht leicht für sprachbasierte Modellierung eignen. Basierend auf diesem Erkenntnis führen wir eine einfache Erweiterung ein: Wir erweitern die Einzeltoken-Vorhersage kausaler Transformer, um die Vorhersage einer variablen Anzahl von Token in einem Schritt durch unseren Chunking Causal Transformer (CCT) zu ermöglichen. Diese Erweiterung ermöglicht eine robuste Leistung bei diversen Aufgaben unterschiedlicher Kontrollfrequenzen, erhöht die Effizienz durch weniger autoregressive Schritte und führt zu einem hybriden Aktionssequenzdesign durch das Mischen verschiedener Arten von Aktionen und das Verwenden unterschiedlicher Chunkgrößen für jede Art von Aktion. Basierend auf CCT schlagen wir die Autoregressive Policy (ARP)-Architektur vor, die Manipulationsaufgaben löst, indem sie hybride Aktionssequenzen generiert. Wir evaluieren ARP in verschiedenen Robotermanipulationsumgebungen, einschließlich Push-T, ALOHA und RLBench, und zeigen, dass ARP als universelle Architektur den Umgebungsspezifischen Stand der Technik in allen getesteten Benchmarks erreicht oder übertrifft, während gleichzeitig effizienter in der Berechnung und den Parametern ist. Videos unserer echten Roboterdemonstrationen sowie der gesamte Quellcode und die vortrainierten Modelle von ARP können unter http://github.com/mlzxy/arp abgerufen werden.