2 个月前

反应器:一种快速且样本高效的强化学习行动-评价智能体

Audrunas Gruslys; Will Dabney; Mohammad Gheshlaghi Azar; Bilal Piot; Marc Bellemare; Remi Munos
反应器:一种快速且样本高效的强化学习行动-评价智能体
摘要

在这项工作中,我们提出了一种新的智能体架构,称为Reactor,该架构结合了多种算法和架构上的贡献,生成了一个比优先级决斗DQN(Wang等人,2016年)和分类DQN(Bellemare等人,2017年)具有更高样本效率的智能体,并且在运行时性能上优于A3C(Mnih等人,2016年)。我们的第一个贡献是一种新的策略评估算法,称为分布重溯(Distributional Retrace),该算法将多步离策略更新引入到分布强化学习环境中。同样的方法可以用于将几类设计用于期望值评估的多步策略评估算法转换为分布式的算法。接下来,我们介绍了\eta-留一法策略梯度算法(\b{eta}-leave-one-out policy gradient algorithm),该算法通过使用动作值作为基线来改善方差与偏差之间的权衡。我们的最后一个算法贡献是一种新的序列优先回放算法,该算法利用相邻观察的时间局部性实现更高效的回放优先级排序。通过Atari 2600基准测试,我们展示了这些创新对样本效率和最终智能体性能的提升作用。最后,我们证明了Reactor在训练2亿帧和不到一天的时间内达到了最先进的性能水平。