2 个月前
分布式优先经验回放
Dan Horgan; John Quan; David Budden; Gabriel Barth-Maron; Matteo Hessel; Hado van Hasselt; David Silver

摘要
我们提出了一种分布式架构,用于大规模深度强化学习,该架构使智能体能够从比以往可能的数量多几个数量级的数据中有效学习。该算法将行为与学习解耦:行为者根据共享神经网络选择动作并与环境的独立实例进行交互,将由此产生的经验累积到共享的经验回放记忆中;学习者则重播经验样本并更新神经网络。该架构依赖于优先经验回放(Prioritized Experience Replay),以专注于由行为者生成的最重要数据。我们的架构在街机学习环境(Arcade Learning Environment)上显著提升了现有技术水平,不仅在较短的实际训练时间内实现了更好的最终性能。