13 天前

OpenVLA:一个开源的视觉-语言-动作模型

Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn
OpenVLA:一个开源的视觉-语言-动作模型
摘要

在大规模视觉-语言数据与多样化机器人示范数据联合预训练的大型模型基础上,视觉-语言-动作(Vision-Language-Action, VLA)模型有望彻底改变机器人技能教学的方式:无需从零开始训练新行为,而是通过对这类VLA模型进行微调,即可获得在视觉-运动控制任务中具备强鲁棒性与良好泛化能力的策略。然而,VLA在机器人领域的广泛应用仍面临两大挑战:其一,现有VLA模型大多为封闭系统,对公众不可访问;其二,此前研究未能有效探索针对新任务高效微调VLA的方法,而这正是实现广泛应用的关键环节。为应对上述挑战,我们提出OpenVLA——一个参数量为70亿的开源VLA模型,其训练数据涵盖97万条真实世界中的机器人示范。OpenVLA基于Llama 2语言模型构建,并融合了DINOv2与SigLIP的预训练视觉特征,通过多模态特征融合机制实现高效的视觉-语言-动作对齐。得益于更丰富的数据多样性与创新的模型架构设计,OpenVLA在通用操作任务中展现出卓越性能:在29项任务、多种机器人本体(robot embodiments)上,其绝对任务成功率相比闭源模型RT-2-X(550亿参数)提升了16.5%,且仅使用其7倍的参数量。此外,我们验证了OpenVLA在新场景下的高效微调能力,尤其在涉及多个物体的多任务环境中表现出优异的泛化性能,同时具备强大的语言语义理解能力。在多个基准测试中,其表现超越了诸如Diffusion Policy等从零开始学习的模仿学习方法,任务成功率高出20.4%。我们还深入探索了计算效率问题:作为独立贡献,我们证明,借助现代低秩适配(low-rank adaptation)技术,OpenVLA可在消费级GPU上完成微调,并通过量化技术实现高效部署,而不会影响下游任务的成功率。最后,我们公开发布模型检查点(checkpoints)、微调笔记本(notebooks)以及基于PyTorch的完整代码库,内置对大规模训练VLA模型的支持,可直接用于Open X-Embodiment数据集上的高效训练与研究。该开源工作旨在推动VLA在机器人领域的开放协作与持续创新。

OpenVLA:一个开源的视觉-语言-动作模型 | 最新论文 | HyperAI超神经