Apprentissage de séquences d'actions autorégressives pour la manipulation robotique

La conception d'une architecture de politique universelle qui offre de bonnes performances sur une variété de robots et de configurations de tâches reste un défi majeur. Dans ce travail, nous abordons ce problème en représentant les actions des robots comme des données séquentielles et en générant ces actions à travers la modélisation séquentielle autorégressive. Les architectures autorégressives existantes génèrent les points d'arrivée du manipulateur de manière séquentielle, comme des jetons de mots dans la modélisation linguistique, ce qui est limité aux tâches de contrôle à basse fréquence. Contrairement au langage, les actions des robots sont hétérogènes et incluent souvent des valeurs continues -- telles que les positions articulaires, les coordonnées pixel 2D et les poses du manipulateur -- qui ne conviennent pas facilement à la modélisation basée sur le langage. À partir de cette constatation, nous introduisons une amélioration simple : nous étendons la prédiction mono-jeton des transformateurs causaux pour supporter la prédiction d'un nombre variable de jetons en une seule étape grâce à notre Transformateur Causal par Groupes (CCT). Cette amélioration permet une performance robuste sur diverses tâches de différentes fréquences de contrôle, une plus grande efficacité en réduisant le nombre d'étapes autorégressives, et conduit à un design hybride de séquences d'actions en mélangeant différents types d'actions et en utilisant une taille de groupe différente pour chaque type d'action. Sur la base du CCT, nous proposons l'architecture Autoregressive Policy (ARP), qui résout des tâches de manipulation en générant des séquences d'actions hybrides. Nous évaluons l'ARP dans divers environnements de manipulation robotique, notamment Push-T, ALOHA et RLBench, et montrons que l'ARP, en tant qu'architecture universelle, égale ou surpassе les meilleures performances spécifiques à chaque environnement dans tous les benchmarks testés, tout en étant plus efficace en termes de calcul et de taille des paramètres. Les vidéos de nos démonstrations avec un robot réel, ainsi que tout le code source et les modèles pré-entraînés de l'ARP sont disponibles à l'adresse http://github.com/mlzxy/arp.