Command Palette

Search for a command to run...

9 天前

SAC Flow:通过速度重参数化序列建模实现基于流策略的样本高效强化学习

Yixian Zhang Shu'ang Yu Tonghe Zhang Mo Guang Haojia Hui Kaiwen Long Yu Wang Chao Yu Wenbo Ding

SAC Flow:通过速度重参数化序列建模实现基于流策略的样本高效强化学习

摘要

使用离策略强化学习训练具有表现力的基于流的策略,因其多步动作采样过程中的梯度病态问题而长期存在不稳定性。我们发现,这种不稳定性源于一个根本性联系:流模型的滚动展开(flow rollout)在代数上等价于残差递归计算,因此同样容易受到与循环神经网络(RNN)类似的梯度消失和梯度爆炸问题的影响。为解决这一问题,我们基于现代序列模型的设计原则,对速度网络进行了重参数化,提出两种稳定的架构:Flow-G 采用门控速度机制,Flow-T 则采用解码速度机制。在此基础上,我们设计了一种基于软Actor-Critic(SAC)的实用算法,该算法通过引入噪声增强的滚动展开,实现了对这些策略的直接端到端训练。所提出的方法支持从零开始训练以及离线到在线的迁移学习,且在连续控制与机器人操作基准任务上取得了当前最优性能,无需依赖常见的缓解手段,如策略蒸馏或代理目标。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SAC Flow:通过速度重参数化序列建模实现基于流策略的样本高效强化学习 | 论文 | HyperAI超神经