Command Palette

Search for a command to run...

2 个月前

SimpleVLA-RL:通过强化学习扩展VLA训练

SimpleVLA-RL:通过强化学习扩展VLA训练

摘要

视觉-语言-动作(Vision-Language-Action, VLA)模型近年来已成为机器人操作任务中一种强大的范式。尽管大规模预训练与监督微调(Supervised Fine-Tuning, SFT)带来了显著进展,这类模型仍面临两大根本性挑战:(i)用于SFT扩展所需的大规模人类操作机器人轨迹数据稀缺且获取成本高昂;(ii)在涉及分布外变化的任务中泛化能力有限。近期大型推理模型(Large Reasoning Models, LRMs)的突破表明,强化学习(Reinforcement Learning, RL)能够显著提升逐步推理能力,这自然引发了一个问题:强化学习是否也能同样提升VLA模型在长时程、分步动作规划方面的性能?在本工作中,我们提出了SimpleVLA-RL——一种专为VLA模型设计的高效强化学习框架。在veRL基础上,我们引入了面向VLA的轨迹采样策略、可扩展的并行化机制、多环境渲染技术以及优化的损失计算方法。将该框架应用于OpenVLA-OFT时,SimpleVLA-RL在LIBERO基准上达到当前最优(SoTA)性能,并在RoboTwin 1.0与2.0上超越pi_0基线,展现出显著提升的性能,这得益于我们提出的探索增强策略。SimpleVLA-RL不仅降低了对大规模数据的依赖,实现了更强的泛化能力,还在真实场景任务中显著优于传统的SFT方法。此外,我们在RL训练过程中发现了一种新颖现象——“pushcut”,即策略在训练过程中发现了此前训练阶段未曾见过的新模式。项目开源地址:https://github.com/PRIME-RL/SimpleVLA-RL

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供