Command Palette
Search for a command to run...

摘要
视觉与语言基础模型的最新进展显著推动了多模态理解、推理与生成能力的发展,激发了将此类能力扩展至具身场景的热潮,催生了视觉-语言-动作(Vision-Language-Action, VLA)模型的研究。然而,目前大多数VLA模型仍依赖监督微调(Supervised Fine-Tuning, SFT)进行训练,由于误差累积问题,在分布外情形下泛化能力受限。强化学习(Reinforcement Learning, RL)通过直接交互优化任务性能,提供了一种有前景的替代方案,但现有尝试仍呈碎片化状态,缺乏统一平台以实现对不同模型架构与算法设计的公平、系统性比较。为填补这一空白,我们提出RLinf-VLA——一个统一且高效的VLA模型可扩展强化学习训练框架。该系统采用高度灵活的资源分配机制,有效解决了在RL+VLA训练中融合渲染、训练与推理所带来的挑战。特别地,针对GPU并行化模拟器,RLinf-VLA引入了一种新型的细粒度混合流水线分配模式,在训练速度上实现了1.61倍至1.88倍的提升。通过统一接口,RLinf-VLA可无缝支持多种VLA架构(如OpenVLA、OpenVLA-OFT)、多种强化学习算法(如PPO、GRPO)以及多种模拟环境(如ManiSkill、LIBERO)。在仿真环境中,统一模型在130个LIBERO任务上达到98.11%的成功率,在25个ManiSkill任务上达到97.66%的成功率。除实证性能外,本研究还提炼出一系列应用于VLA训练的强化学习最佳实践,并揭示了该融合方向中的新兴规律。此外,我们还展示了在真实世界Franka机械臂上的初步部署结果,结果显示,经强化学习训练的策略在泛化能力上显著优于监督微调训练的策略。我们展望,RLinf-VLA将成为推动具身智能研究加速发展与标准化的重要基础平台。