il y a 6 mois

Xinghang Li Peiyan Li Minghuan Liu Dong Wang Jirong Liu Bingyi Kang Xiao Ma Tao Kong Hanbo Zhang Huaping Liu

Résumé

Les modèles de langage vision (VLM) présentent des capacités remarquables en apprentissage représentationnel multimodal, compréhension et raisonnement. En intégrant des composants d'action aux VLM, on peut naturellement former des modèles vision-langage-action (VLA), qui montrent également des performances prometteuses. Les travaux existants ont démontré l'efficacité et la généralisation des VLAs dans divers scénarios et tâches. Toutefois, le transfert des VLM aux VLAs n'est pas trivial, car les VLAs existants diffèrent par leurs architectures de base (backbones), leurs formulations de prédiction d'action, leurs distributions de données et leurs procédés d'entraînement. Cela laisse un manque dans la compréhension systématique des choix de conception des VLAs. Dans ce travail, nous identifions les facteurs clés qui influencent significativement les performances des VLAs, et nous nous concentrons sur la réponse à trois choix de conception fondamentaux : quel backbone choisir, comment formuler les architectures des VLAs, et quand intégrer des données croisées (cross-embodiment). Les résultats obtenus nous convainquent fermement de justifier la nécessité des VLAs et de développer une nouvelle famille de VLAs, appelée RoboVLMs, qui nécessitent très peu de conception manuelle et atteignent un nouveau état de l'art sur trois tâches de simulation ainsi que dans des expériences en monde réel. Grâce à des expériences approfondies, incluant plus de 8 backbones VLM, 4 architectures de politique, et plus de 600 expériences distinctement conçues, nous fournissons un guide détaillé pour la conception future des VLAs. En complément de cette étude, nous rendons publique une architecture très flexible, RoboVLMs, qui permet une intégration aisée de nouveaux VLM et des combinaisons libres de divers choix de conception, afin de faciliter la recherche future. Nous mettons à disposition tous les détails, y compris les codes, modèles, jeux de données et outils, ainsi que des recettes détaillées d'entraînement et d'évaluation, sur : robovlms.github.io.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Apprentissage Multi-tâches

Xinghang Li Peiyan Li Minghuan Liu Dong Wang Jirong Liu Bingyi Kang Xiao Ma Tao Kong Hanbo Zhang Huaping Liu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Apprentissage Multi-tâches

Xinghang Li Peiyan Li Minghuan Liu Dong Wang Jirong Liu Bingyi Kang Xiao Ma Tao Kong Hanbo Zhang Huaping Liu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Vers des politiques robotiques généralistes : qu'est-ce qui compte dans la construction de modèles vision-langage-action | Articles | HyperAI

Command Palette

Vers des politiques robotiques généralistes : qu'est-ce qui compte dans la construction de modèles vision-langage-action

Xinghang Li Peiyan Li Minghuan Liu Dong Wang Jirong Liu Bingyi Kang Xiao Ma Tao Kong Hanbo Zhang Huaping Liu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Vers des politiques robotiques généralistes : qu'est-ce qui compte dans la construction de modèles vision-langage-action

Xinghang Li Peiyan Li Minghuan Liu Dong Wang Jirong Liu Bingyi Kang Xiao Ma Tao Kong Hanbo Zhang Huaping Liu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Vers des politiques robotiques généralistes : qu'est-ce qui compte dans la construction de modèles vision-langage-action

Xinghang Li Peiyan Li Minghuan Liu Dong Wang Jirong Liu Bingyi Kang Xiao Ma Tao Kong Hanbo Zhang Huaping Liu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters