HyperAIHyperAI

Command Palette

Search for a command to run...

Perceiver-Actor : Un Transformer multi-tâches pour la manipulation robotique

Mohit Shridhar Lucas Manuelli Dieter Fox

Résumé

Les Transformers ont révolutionné le traitement du langage naturel et la vision par ordinateur grâce à leur capacité à s'échelonner efficacement à grande échelle sur de grands jeux de données. Toutefois, en manipulation robotique, les données sont à la fois limitées et coûteuses. Peut-on toutefois tirer parti des Transformers dans ce domaine, à condition de formuler correctement le problème ? Nous explorons cette question à travers PerAct, un agent conditionné par le langage basé sur le cloning de comportements pour la manipulation multi-tâches en 6 degrés de liberté (6-DoF). PerAct encode les objectifs linguistiques et les observations en voxel RGB-D à l’aide d’un Transformer Perceiver, puis émet des actions discrétisées en « détectant la prochaine meilleure action sur un voxel ». Contrairement aux approches fondées sur des images 2D, l’espace d’observation et d’action voxelisé en 3D fournit un prior structurel fort, permettant d’apprendre efficacement des actions en 6-DoF. Grâce à cette formulation, nous entraînons un seul Transformer multi-tâches pour 18 tâches RLBench (avec 249 variantes) et 7 tâches réelles (avec 18 variantes), à partir de seulement quelques démonstrations par tâche. Nos résultats montrent que PerAct surpasse significativement les agents sans structure image → action ainsi que les modèles basés sur des ConvNet 3D sur une large gamme de tâches de table.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp