Command Palette
Search for a command to run...
Yixian Zhang Shu'ang Yu Tonghe Zhang Mo Guang Haojia Hui Kaiwen Long Yu Wang Chao Yu Wenbo Ding

摘要
使用离策略强化学习训练具有表现力的基于流的策略,因其多步动作采样过程中的梯度病态问题而长期存在不稳定性。我们发现,这种不稳定性源于一个根本性联系:流模型的滚动展开(flow rollout)在代数上等价于残差递归计算,因此同样容易受到与循环神经网络(RNN)类似的梯度消失和梯度爆炸问题的影响。为解决这一问题,我们基于现代序列模型的设计原则,对速度网络进行了重参数化,提出两种稳定的架构:Flow-G 采用门控速度机制,Flow-T 则采用解码速度机制。在此基础上,我们设计了一种基于软Actor-Critic(SAC)的实用算法,该算法通过引入噪声增强的滚动展开,实现了对这些策略的直接端到端训练。所提出的方法支持从零开始训练以及离线到在线的迁移学习,且在连续控制与机器人操作基准任务上取得了当前最优性能,无需依赖常见的缓解手段,如策略蒸馏或代理目标。