HyperAIHyperAI
il y a 11 jours

R3M : Une représentation visuelle universelle pour la manipulation robotique

Suraj Nair, Aravind Rajeswaran, Vikash Kumar, Chelsea Finn, Abhinav Gupta
R3M : Une représentation visuelle universelle pour la manipulation robotique
Résumé

Nous étudions la manière dont les représentations visuelles pré-entraînées sur des données vidéo humaines diversifiées peuvent permettre un apprentissage efficace en données pour des tâches de manipulation robotique en aval. Plus précisément, nous pré-entraînons une représentation visuelle à l’aide du jeu de données vidéo humaine Ego4D, en combinant l’apprentissage contrastif temporel, l’alignement vidéo-langage, et une pénalité L1 afin d’encourager des représentations éparses et compactes. La représentation obtenue, nommée R3M, peut être utilisée comme module de perception gelé pour l’apprentissage de politiques en aval. Sur une série de 12 tâches simulées de manipulation robotique, nous constatons que R3M améliore le taux de réussite des tâches de plus de 20 % par rapport à un entraînement depuis zéro, et de plus de 10 % par rapport aux représentations visuelles de pointe telles que CLIP ou MoCo. En outre, R3M permet à un bras robotique Franka Emika Panda d’apprendre une variété de tâches de manipulation dans un environnement réel encombré (un appartement) à partir de seulement 20 démonstrations. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://tinyurl.com/robotr3m.

R3M : Une représentation visuelle universelle pour la manipulation robotique | Articles de recherche récents | HyperAI