OpenVLA:一个开源的视觉-语言-动作模型

在大规模视觉-语言数据与多样化机器人示范数据联合预训练的大型模型基础上,视觉-语言-动作(Vision-Language-Action, VLA)模型有望彻底改变机器人技能教学的方式:无需从零开始训练新行为,而是通过对这类VLA模型进行微调,即可获得在视觉-运动控制任务中具备强鲁棒性与良好泛化能力的策略。然而,VLA在机器人领域的广泛应用仍面临两大挑战:其一,现有VLA模型大多为封闭系统,对公众不可访问;其二,此前研究未能有效探索针对新任务高效微调VLA的方法,而这正是实现广泛应用的关键环节。为应对上述挑战,我们提出OpenVLA——一个参数量为70亿的开源VLA模型,其训练数据涵盖97万条真实世界中的机器人示范。OpenVLA基于Llama 2语言模型构建,并融合了DINOv2与SigLIP的预训练视觉特征,通过多模态特征融合机制实现高效的视觉-语言-动作对齐。得益于更丰富的数据多样性与创新的模型架构设计,OpenVLA在通用操作任务中展现出卓越性能:在29项任务、多种机器人本体(robot embodiments)上,其绝对任务成功率相比闭源模型RT-2-X(550亿参数)提升了16.5%,且仅使用其7倍的参数量。此外,我们验证了OpenVLA在新场景下的高效微调能力,尤其在涉及多个物体的多任务环境中表现出优异的泛化性能,同时具备强大的语言语义理解能力。在多个基准测试中,其表现超越了诸如Diffusion Policy等从零开始学习的模仿学习方法,任务成功率高出20.4%。我们还深入探索了计算效率问题:作为独立贡献,我们证明,借助现代低秩适配(low-rank adaptation)技术,OpenVLA可在消费级GPU上完成微调,并通过量化技术实现高效部署,而不会影响下游任务的成功率。最后,我们公开发布模型检查点(checkpoints)、微调笔记本(notebooks)以及基于PyTorch的完整代码库,内置对大规模训练VLA模型的支持,可直接用于Open X-Embodiment数据集上的高效训练与研究。该开源工作旨在推动VLA在机器人领域的开放协作与持续创新。