17 天前

DNA:基于双网络架构的近端策略优化

Matthew Aitchison, Penny Sweetser
DNA:基于双网络架构的近端策略优化
摘要

本文研究了深度演员-评论家强化学习模型中同时学习价值函数与策略所面临的问题。我们发现,将这两项任务联合学习的常见做法存在次优性,其根源在于两类任务之间存在数量级差异的噪声水平。相反,我们提出通过独立学习这两个任务,并引入受约束的蒸馏阶段,能够显著提升模型性能。此外,我们发现:通过采用更低的方差回报估计,可有效降低策略梯度的噪声水平;而通过采用更低的偏差回报估计,则有助于降低价值函数学习过程中的噪声水平。基于上述洞见,我们提出了对近端策略优化(Proximal Policy Optimization, PPO)的改进方法,称为双网络架构(Dual Network Architecture, DNA),该方法在性能上显著优于其原始版本。在所测试的五个环境中的四个上,DNA 的表现甚至超过了广受认可的 Rainbow DQN 算法,且在更具挑战性的随机控制设置下依然保持优异性能。