HyperAIHyperAI
il y a 17 jours

Libérer l'apprentissage préalable générique à grande échelle vidéo pour la manipulation robotique visuelle

Hongtao Wu, Ya Jing, Chilam Cheang, Guangzeng Chen, Jiafeng Xu, Xinghang Li, Minghuan Liu, Hang Li, Tao Kong
Libérer l'apprentissage préalable générique à grande échelle vidéo pour la manipulation robotique visuelle
Résumé

Les modèles pré-entraînés génératifs ont démontré une efficacité remarquable dans les domaines du langage et de la vision en apprenant des représentations utiles. Dans ce travail, nous étendons la portée de cette efficacité en montrant que la manipulation robotique visuelle peut bénéficier considérablement de l’entraînement préalable génératif à grande échelle sur des vidéos. Nous introduisons GR-1, un modèle simple inspiré de GPT, conçu pour la manipulation robotique visuelle multi-tâches conditionnée par le langage. GR-1 prend en entrée une instruction linguistique, une séquence d’images d’observation et une séquence d’états robotiques, et prédit les actions du robot ainsi que les images futures de manière end-to-end. Grâce à une architecture flexible, GR-1 peut être facilement fine-tuné sur des données robotiques après avoir été pré-entraîné sur un grand ensemble de vidéos. Nous menons des expériences approfondies sur le défi CALVIN et sur un robot réel. Sur le benchmark CALVIN, notre méthode surpasser les méthodes de référence les plus avancées, avec une amélioration du taux de réussite passant de 88,9 % à 94,9 %. Dans le cadre de la généralisation zéro-shot à des scènes inconnues, GR-1 améliore le taux de réussite de 53,3 % à 85,4 %. Dans les expériences sur robot réel, GR-1 surpasse également les méthodes de référence et démontre un fort potentiel de généralisation à des scènes et objets inconnus. Nous fournissons ainsi la première preuve que, augmenté par un entraînement préalable génératif à grande échelle sur des vidéos, un modèle transformer unifié de type GPT présente une généralisation remarquable dans le domaine de la manipulation robotique visuelle multi-tâches. Page du projet : https://GR1-Manipulation.github.io

Libérer l'apprentissage préalable générique à grande échelle vidéo pour la manipulation robotique visuelle | Articles de recherche récents | HyperAI