
摘要
我们研究了将演员-评论家强化学习算法与均匀的大规模经验回放相结合的方法,并针对两个关键挑战提出了相应的解决方案:(a)在使用经验回放时实现高效的演员-评论家学习;(b)在离策略学习场景下提升稳定性,即智能体从其他智能体的行为中进行学习。基于这些洞察,我们设计了一种加速超参数搜索的框架,其中所有参与的智能体可并行运行,并通过一个共享的经验回放模块实现经验共享。为此,我们深入分析了V-trace——一种用于演员-评论家方法的重要性采样技术——中的偏差-方差权衡问题。基于该分析,我们提出将来自回放池的经验与在线策略经验进行混合,并进一步提出一种新的信任区域更新机制,该机制在V-trace出现不稳定的数据分布下仍能实现有效扩展。我们对所提出的方案进行了全面的实证验证。此外,通过在训练至20000万环境帧的智能体上实现Atari游戏上的最先进数据效率,进一步证明了该方法的优越性。