il y a 6 mois

Hongtao Wu Ya Jing Chilam Cheang Guangzeng Chen Jiafeng Xu Xinghang Li Minghuan Liu Hang Li Tao Kong

Résumé

Les modèles pré-entraînés génératifs ont démontré une efficacité remarquable dans les domaines du langage et de la vision en apprenant des représentations utiles. Dans ce travail, nous étendons la portée de cette efficacité en montrant que la manipulation robotique visuelle peut bénéficier considérablement de l’entraînement préalable génératif à grande échelle sur des vidéos. Nous introduisons GR-1, un modèle simple inspiré de GPT, conçu pour la manipulation robotique visuelle multi-tâches conditionnée par le langage. GR-1 prend en entrée une instruction linguistique, une séquence d’images d’observation et une séquence d’états robotiques, et prédit les actions du robot ainsi que les images futures de manière end-to-end. Grâce à une architecture flexible, GR-1 peut être facilement fine-tuné sur des données robotiques après avoir été pré-entraîné sur un grand ensemble de vidéos. Nous menons des expériences approfondies sur le défi CALVIN et sur un robot réel. Sur le benchmark CALVIN, notre méthode surpasser les méthodes de référence les plus avancées, avec une amélioration du taux de réussite passant de 88,9 % à 94,9 %. Dans le cadre de la généralisation zéro-shot à des scènes inconnues, GR-1 améliore le taux de réussite de 53,3 % à 85,4 %. Dans les expériences sur robot réel, GR-1 surpasse également les méthodes de référence et démontre un fort potentiel de généralisation à des scènes et objets inconnus. Nous fournissons ainsi la première preuve que, augmenté par un entraînement préalable génératif à grande échelle sur des vidéos, un modèle transformer unifié de type GPT présente une généralisation remarquable dans le domaine de la manipulation robotique visuelle multi-tâches. Page du projet : https://GR1-Manipulation.github.io

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Hongtao Wu Ya Jing Chilam Cheang Guangzeng Chen Jiafeng Xu Xinghang Li Minghuan Liu Hang Li Tao Kong

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Hongtao Wu Ya Jing Chilam Cheang Guangzeng Chen Jiafeng Xu Xinghang Li Minghuan Liu Hang Li Tao Kong

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Libérer l'apprentissage préalable générique à grande échelle vidéo pour la manipulation robotique visuelle

Hongtao Wu Ya Jing Chilam Cheang Guangzeng Chen Jiafeng Xu Xinghang Li Minghuan Liu Hang Li Tao Kong

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Libérer l'apprentissage préalable générique à grande échelle vidéo pour la manipulation robotique visuelle

Hongtao Wu Ya Jing Chilam Cheang Guangzeng Chen Jiafeng Xu Xinghang Li Minghuan Liu Hang Li Tao Kong

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Libérer l'apprentissage préalable générique à grande échelle vidéo pour la manipulation robotique visuelle

Hongtao Wu Ya Jing Chilam Cheang Guangzeng Chen Jiafeng Xu Xinghang Li Minghuan Liu Hang Li Tao Kong

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters