Command Palette

Search for a command to run...

13 天前

基于世界模型的策略优化用于视觉-语言-动作模型

Fangqi Zhu Zhengyang Yan Zicong Hong Quanxin Shou Xiao Ma Song Guo

基于世界模型的策略优化用于视觉-语言-动作模型

摘要

视觉-语言-动作(Vision-Language-Action, VLA)模型在通用机器人操作任务中展现出巨大潜力,但其对专家示范的依赖限制了模型从失败中学习以及进行自我修正的能力。强化学习(Reinforcement Learning, RL)通过与物理环境的自适应交互来解决这一问题,但在真实机器人上面临样本复杂度高的挑战。为此,我们提出基于世界模型的策略优化方法(World-Model-based Policy Optimization, WMPO),这是一种无需与真实环境交互的、面向在线策略(on-policy)VLA强化学习的系统性框架。与广泛使用的潜在空间世界模型不同,WMPO专注于基于像素的预测,使“想象中的”轨迹与通过大规模网络图像预训练得到的VLA特征保持一致。尤为重要的是,WMPO使策略能够执行在线策略的广义策略优化(Generalized Reward Policy Optimization, GRPO),其性能显著优于常用的离线策略方法。在仿真环境与真实机器人上的大量实验表明,WMPO具备以下优势:(i)显著提升样本效率;(ii)实现更优的整体性能;(iii)涌现出诸如自我修正等新型行为;(iv)展现出强大的泛化能力与持续学习特性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于世界模型的策略优化用于视觉-语言-动作模型 | 论文 | HyperAI超神经