HyperAI

摘要

使用离策略强化学习训练具有表现力的基于流的策略，因其多步动作采样过程中的梯度病态问题而长期存在不稳定性。我们发现，这种不稳定性源于一个根本性联系：流模型的滚动展开（flow rollout）在代数上等价于残差递归计算，因此同样容易受到与循环神经网络（RNN）类似的梯度消失和梯度爆炸问题的影响。为解决这一问题，我们基于现代序列模型的设计原则，对速度网络进行了重参数化，提出两种稳定的架构：Flow-G 采用门控速度机制，Flow-T 则采用解码速度机制。在此基础上，我们设计了一种基于软Actor-Critic（SAC）的实用算法，该算法通过引入噪声增强的滚动展开，实现了对这些策略的直接端到端训练。所提出的方法支持从零开始训练以及离线到在线的迁移学习，且在连续控制与机器人操作基准任务上取得了当前最优性能，无需依赖常见的缓解手段，如策略蒸馏或代理目标。

SAC Flow：通过速度重参数化序列建模实现基于流策略的样本高效强化学习

Yixian Zhang Shu'ang Yu Tonghe Zhang Mo Guang Haojia Hui Kaiwen Long Yu Wang Chao Yu Wenbo Ding

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

SAC Flow：通过速度重参数化序列建模实现基于流策略的样本高效强化学习

Yixian Zhang Shu'ang Yu Tonghe Zhang Mo Guang Haojia Hui Kaiwen Long Yu Wang Chao Yu Wenbo Ding

摘要

用 AI 构建 AI

Hyper Newsletters