Command Palette

Search for a command to run...

1 个月前

VLA-RFT:基于世界模拟器中验证奖励的视觉-语言-动作强化微调

VLA-RFT:基于世界模拟器中验证奖励的视觉-语言-动作强化微调

摘要

视觉-语言-动作(Vision-Language-Action, VLA)模型能够实现具身决策,但其高度依赖模仿学习,导致误差累积严重,且在分布外情形下鲁棒性较差。强化学习(Reinforcement Learning, RL)虽可缓解上述问题,但通常需要昂贵的真实世界交互,或面临仿真到现实(sim-to-real)的差距。为此,我们提出VLA-RFT——一种基于强化学习微调的框架,该框架利用数据驱动的世界模型作为可控的仿真器。该仿真器基于真实交互数据进行训练,能够根据动作预测未来的视觉观测,从而支持具有密集轨迹级奖励的策略回放。这些奖励由达成目标的参考轨迹生成,为学习过程提供高效且动作对齐的信号,显著降低样本需求。仅需不到400次微调步骤,VLA-RFT即超越了强监督基线模型,并在效率上优于基于仿真器的强化学习方法。此外,该方法在扰动条件下仍表现出优异的鲁棒性,能够维持稳定的任务执行。我们的实验结果表明,基于世界模型的强化学习微调(RFT)是一种切实可行的后训练范式,可有效提升VLA模型的泛化能力与鲁棒性。更多细节请参见:https://vla-rft.github.io/。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供