HyperAI
il y a 14 heures

villa-X : Amélioration de la modélisation des actions latentes dans les modèles vision-langage-action

Xiaoyu Chen, Hangxing Wei, Pushi Zhang, Chuheng Zhang, Kaixin Wang, Yanjiang Guo, Rushuai Yang, Yucen Wang, Xinquan Xiao, Li Zhao, Jianyu Chen, Jiang Bian
villa-X : Amélioration de la modélisation des actions latentes dans les modèles vision-langage-action
Résumé

Les modèles Visual-Language-Action (VLA) se sont imposés comme un paradigme populaire pour l’apprentissage de politiques de manipulation robotique capables de suivre des instructions linguistiques et de se généraliser à des scénarios nouveaux. Des travaux récents ont commencé à explorer l’intégration d’actions latentes — une représentation abstraite des changements visuels entre deux cadres successifs — dans le pré-entraînement des VLA. Dans cet article, nous introduisons villa-X, un cadre novateur Visual-Language-Latent-Action (ViLLA) qui améliore la modélisation des actions latentes afin d’apprendre des politiques de manipulation robotique généralisables. Notre approche améliore à la fois la manière dont les actions latentes sont apprises et la manière dont elles sont intégrées au pré-entraînement des VLA. Ensemble, ces contributions permettent à villa-X d’atteindre des performances supérieures dans des environnements simulés, notamment SIMPLER et LIBERO, ainsi que sur deux configurations robotiques réelles, incluant la manipulation par pince et par main dextre. Nous pensons que le paradigme ViLLA présente un potentiel important, et que notre villa-X constitue une base solide pour les recherches futures.