HyperAIHyperAI
il y a 11 jours

Perceiver-Actor : Un Transformer multi-tâches pour la manipulation robotique

Mohit Shridhar, Lucas Manuelli, Dieter Fox
Perceiver-Actor : Un Transformer multi-tâches pour la manipulation robotique
Résumé

Les Transformers ont révolutionné le traitement du langage naturel et la vision par ordinateur grâce à leur capacité à s'échelonner efficacement à grande échelle sur de grands jeux de données. Toutefois, en manipulation robotique, les données sont à la fois limitées et coûteuses. Peut-on toutefois tirer parti des Transformers dans ce domaine, à condition de formuler correctement le problème ? Nous explorons cette question à travers PerAct, un agent conditionné par le langage basé sur le cloning de comportements pour la manipulation multi-tâches en 6 degrés de liberté (6-DoF). PerAct encode les objectifs linguistiques et les observations en voxel RGB-D à l’aide d’un Transformer Perceiver, puis émet des actions discrétisées en « détectant la prochaine meilleure action sur un voxel ». Contrairement aux approches fondées sur des images 2D, l’espace d’observation et d’action voxelisé en 3D fournit un prior structurel fort, permettant d’apprendre efficacement des actions en 6-DoF. Grâce à cette formulation, nous entraînons un seul Transformer multi-tâches pour 18 tâches RLBench (avec 249 variantes) et 7 tâches réelles (avec 18 variantes), à partir de seulement quelques démonstrations par tâche. Nos résultats montrent que PerAct surpasse significativement les agents sans structure image → action ainsi que les modèles basés sur des ConvNet 3D sur une large gamme de tâches de table.

Perceiver-Actor : Un Transformer multi-tâches pour la manipulation robotique | Articles de recherche récents | HyperAI