HyperAI
il y a 5 jours

DreamVLA : Un Modèle Vision-Langage-Action Rêvé avec une Connaissance Mondiale Compréhensive

Wenyao Zhang, Hongsi Liu, Zekun Qi, Yunnan Wang, XinQiang Yu, Jiazhao Zhang, Runpei Dong, Jiawei He, He Wang, Zhizheng Zhang, Li Yi, Wenjun Zeng, Xin Jin
DreamVLA : Un Modèle Vision-Langage-Action Rêvé avec une Connaissance Mondiale Compréhensive
Résumé

Les récentes avancées dans les modèles de vision-langage-action (VLA) ont montré un potentiel prometteur pour intégrer la génération d'images à la prédiction d'actions, afin d'améliorer la généralisation et le raisonnement dans la manipulation robotique. Cependant, les méthodes existantes sont limitées par des prévisions basées sur des images qui souffrent d'une information redondante et manquent de connaissances mondiales complètes et critiques, notamment les informations dynamiques, spatiales et sémantiques. Pour remédier à ces limitations, nous proposons DreamVLA, un nouveau cadre VLA qui intègre une prévision de connaissances mondiales complète pour permettre la modélisation inverse des dynamiques, établissant ainsi une boucle perception-prédiction-action pour les tâches de manipulation. Plus précisément, DreamVLA introduit une prédiction de connaissances mondiales guidée par des régions dynamiques, intégrée avec des indices spatiaux et sémantiques, fournissant des représentations compactes mais complètes pour la planification d'actions. Cette conception est en accord avec la façon dont les humains interagissent avec le monde en formant d'abord des chaînes de raisonnement multimodales avant d'agir. Pour atténuer les interférences entre les informations dynamiques, spatiales et sémantiques pendant l'apprentissage, nous utilisons un mécanisme d'attention structurée par blocs qui masque leur attention mutuelle, évitant ainsi toute fuite d'information et maintenant chaque représentation propre et dissociée. De plus, pour modéliser la distribution conditionnelle sur les actions futures, nous utilisons un transformateur basé sur la diffusion qui dissocié les représentations d'actions des caractéristiques latentes partagées. Des expériences approfondies dans des environnements réels et simulés montrent que DreamVLA atteint un taux de réussite de 76,7 % sur des tâches robotiques réelles et une longueur moyenne de 4,44 sur les benchmarks CALVIN ABC-D.