Command Palette

Search for a command to run...

1 天前

π𝚁𝙻:基于流的视觉-语言-动作模型的在线RL微调

π𝚁𝙻:基于流的视觉-语言-动作模型的在线RL微调

摘要

视觉-语言-动作 (VLA) 模型使机器人能够理解并执行来自多模态输入的复杂任务。尽管最近的研究探索了使用强化学习 (RL) 来自动化监督微调 (SFT) 中繁琐的数据收集过程,但将大规模 RL 应用于基于流程的 VLA(例如,π0,π0.5由于迭代去噪中难以处理的动作对数似然函数,该方法仍然具有挑战性。 我们通过以下方式解决这一挑战:πRL,一个用于在并行仿真中训练基于流的 VLA 的开源框架。πRL实现了两种强化学习算法:(1)Flow-Noise 将去噪过程建模为离散时间马尔可夫决策过程(MDP),并采用可学习的噪声网络进行精确的对数似然计算。(2)Flow-SDE 将去噪与智能体-环境交互相结合,构建了一个两层 MDP,并利用常微分方程到随机微分方程的转换来实现高效的强化学习探索。 我们评估了πRL在 LIBERO 和 ManiSkill 基准测试中。在 LIBERO 测试中,πRL增强少镜头SFT模型π0和π0.5分别从 57.6% 到 97.6% 和从 77.1% 到 98.3%。在 ManiSkill 中,我们进行训练πRL在 320 个并行环境中,改进π0从 41.6% 到 85.7% 和π0.5在 4352 个取放任务中,准确率从 40.0% 提高到 84.8%,证明了在异构仿真环境下可扩展的多任务强化学习能力。 总体而言,πRL与 SFT 模型相比,该模型取得了显著的性能提升和更强的泛化能力,验证了在线强化学习对基于流的 VLA 的有效性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
π𝚁𝙻:基于流的视觉-语言-动作模型的在线RL微调 | 论文 | HyperAI超神经