RVT : Transformateur de Vue Robotique pour la Manipulation d'Objets 3D

Pour la manipulation d'objets 3D, les méthodes qui construisent une représentation 3D explicite obtiennent de meilleurs résultats que celles qui se contentent d'images provenant de caméras. Toutefois, l'utilisation de représentations 3D explicites, telles que les voxels, entraîne un coût computationnel élevé, ce qui nuit à l’évolutivité. Dans ce travail, nous proposons RVT, un transformateur multi-vues pour la manipulation 3D, qui allie à la fois évolutivité et précision. Parmi ses caractéristiques clés figure un mécanisme d’attention permettant d’agréger l’information entre différentes vues, ainsi que le rérendu des entrées caméra depuis des vues virtuelles autour de l’espace de travail du robot. En simulation, nous observons qu’un seul modèle RVT s’acquiert efficacement sur 18 tâches RLBench, couvrant 249 variations de tâches, en atteignant une réussite relative supérieure de 26 % par rapport à la méthode de l’état de l’art existante (PerAct). Il s’entraîne également 36 fois plus vite que PerAct pour atteindre la même performance, tout en offrant une vitesse d’inférence 2,3 fois supérieure. En outre, RVT peut exécuter une variété de tâches de manipulation dans le monde réel en ne nécessitant que quelques démonstrations (environ 10) par tâche. Des résultats visuels, le code source et les modèles entraînés sont disponibles à l’adresse suivante : https://robotic-view-transformer.github.io/.