Act3D : Transformateurs de champs de caractéristiques 3D pour la manipulation robotique multi-tâches

Les représentations perceptuelles 3D sont particulièrement adaptées à la manipulation robotique, car elles codent naturellement les occlusions et simplifient le raisonnement spatial. De nombreuses tâches de manipulation exigent une précision spatiale élevée dans la prédiction de la pose de l’effecteur final, ce qui nécessite généralement des grilles de caractéristiques 3D à haute résolution, coûteuses en termes de traitement computationnel. En conséquence, la plupart des politiques de manipulation opèrent directement en 2D, abandonnant ainsi les biais inductifs 3D. Dans cet article, nous introduisons Act3D, une politique de manipulation basée sur un transformateur qui représente l’espace de travail du robot à l’aide d’un champ de caractéristiques 3D à résolution adaptative, en fonction de la tâche en cours. Le modèle élève des caractéristiques 2D pré-entraînées vers le 3D à l’aide de données de profondeur sensorielles, puis les attendent pour calculer des caractéristiques associées à des points 3D échantillonnés. Il échantillonne les grilles de points 3D de manière progressive (de grossier à fin), les caractérise à l’aide d’une attention basée sur la position relative, et détermine où concentrer le prochain échantillonnage. Ainsi, Act3D calcule efficacement des cartes d’actions 3D à haute résolution spatiale. Act3D établit un nouveau record sur RL-Bench, une référence établie en manipulation robotique, en obtenant une amélioration absolue de 10 % par rapport à la politique 2D multi-vue précédemment meilleure sur 74 tâches de RLBench, ainsi qu’une amélioration absolue de 22 % avec trois fois moins de ressources computationnelles que la politique 3D précédemment meilleure. Nous quantifions l’importance de l’attention spatiale relative, des modèles 2D pré-entraînés à grande échelle sur des données vision-langage, ainsi que du partage de poids entre les couches d’attention de grossier à fin à travers des expériences d’ablation. Le code source et des vidéos sont disponibles sur notre site projet : https://act3d.github.io/.