HyperAIHyperAI
il y a 11 jours

Vers des politiques robotiques généralistes : qu'est-ce qui compte dans la construction de modèles vision-langage-action

Xinghang Li, Peiyan Li, Minghuan Liu, Dong Wang, Jirong Liu, Bingyi Kang, Xiao Ma, Tao Kong, Hanbo Zhang, Huaping Liu
Vers des politiques robotiques généralistes : qu'est-ce qui compte dans la construction de modèles vision-langage-action
Résumé

Les modèles de langage vision (VLM) présentent des capacités remarquables en apprentissage représentationnel multimodal, compréhension et raisonnement. En intégrant des composants d'action aux VLM, on peut naturellement former des modèles vision-langage-action (VLA), qui montrent également des performances prometteuses. Les travaux existants ont démontré l'efficacité et la généralisation des VLAs dans divers scénarios et tâches. Toutefois, le transfert des VLM aux VLAs n'est pas trivial, car les VLAs existants diffèrent par leurs architectures de base (backbones), leurs formulations de prédiction d'action, leurs distributions de données et leurs procédés d'entraînement. Cela laisse un manque dans la compréhension systématique des choix de conception des VLAs. Dans ce travail, nous identifions les facteurs clés qui influencent significativement les performances des VLAs, et nous nous concentrons sur la réponse à trois choix de conception fondamentaux : quel backbone choisir, comment formuler les architectures des VLAs, et quand intégrer des données croisées (cross-embodiment). Les résultats obtenus nous convainquent fermement de justifier la nécessité des VLAs et de développer une nouvelle famille de VLAs, appelée RoboVLMs, qui nécessitent très peu de conception manuelle et atteignent un nouveau état de l'art sur trois tâches de simulation ainsi que dans des expériences en monde réel. Grâce à des expériences approfondies, incluant plus de 8 backbones VLM, 4 architectures de politique, et plus de 600 expériences distinctement conçues, nous fournissons un guide détaillé pour la conception future des VLAs. En complément de cette étude, nous rendons publique une architecture très flexible, RoboVLMs, qui permet une intégration aisée de nouveaux VLM et des combinaisons libres de divers choix de conception, afin de faciliter la recherche future. Nous mettons à disposition tous les détails, y compris les codes, modèles, jeux de données et outils, ainsi que des recettes détaillées d'entraînement et d'évaluation, sur : robovlms.github.io.

Vers des politiques robotiques généralistes : qu'est-ce qui compte dans la construction de modèles vision-langage-action | Articles de recherche récents | HyperAI