15 天前

迈向通用机器人策略:构建视觉-语言-动作模型的关键要素

Xinghang Li, Peiyan Li, Minghuan Liu, Dong Wang, Jirong Liu, Bingyi Kang, Xiao Ma, Tao Kong, Hanbo Zhang, Huaping Liu
迈向通用机器人策略:构建视觉-语言-动作模型的关键要素
摘要

视觉-语言模型(Foundation Vision-Language Models, VLMs)在多模态表征学习、理解与推理方面展现出强大的能力。通过向VLM中引入动作组件,可自然地构建出视觉-语言-动作模型(Vision-Language-Action Models, VLAs),并表现出令人瞩目的性能。已有研究证实,VLAs在多种场景与任务中均具备良好的有效性与泛化能力。然而,从VLM到VLA的迁移并非简单直接,因为现有的VLAs在骨干网络架构、动作预测建模方式、数据分布以及训练策略等方面存在显著差异。这一现状导致当前缺乏对VLAs设计选择的系统性理解。在本研究中,我们揭示了显著影响VLA性能的关键因素,并聚焦于回答三个核心设计问题:应选择何种骨干网络?如何构建VLA的架构?在何时引入跨模态(cross-embodiment)数据?实验结果充分证明了构建VLA的必要性,并由此推动我们提出了一类新型VLAs——RoboVLMs。该模型仅需极少的人工设计干预,便在三个仿真任务和真实世界实验中取得了新的最先进(state-of-the-art)性能。通过涵盖超过8种VLM骨干网络、4种策略架构,以及超过600组独立设计的实验,我们系统性地构建了一本详尽的VLAs设计指南,为未来研究提供坚实依据。此外,我们公开发布了高度灵活的RoboVLMs框架,支持新VLM的便捷集成以及各类设计选项的自由组合,以促进后续研究的发展。所有相关资源——包括代码、模型、数据集、工具包,以及详细的训练与评估流程——均已开源,详见:robovlms.github.io。