2 个月前

大规模并行深度强化学习方法

Arun Nair; Praveen Srinivasan; Sam Blackwell; Cagdas Alcicek; Rory Fearon; Alessandro De Maria; Vedavyas Panneershelvam; Mustafa Suleyman; Charles Beattie; Stig Petersen; Shane Legg; Volodymyr Mnih; Koray Kavukcuoglu; David Silver

查看论文详情

摘要

我们提出了首个大规模分布式深度强化学习架构。该架构主要由四个组件构成：生成新行为的并行执行器；从存储的经验中进行训练的并行学习器；用于表示价值函数或行为策略的分布式神经网络；以及分布式经验存储库。我们利用该架构实现了深度Q网络算法（Deep Q-Network, DQN）。我们的分布式算法被应用于来自Arcade Learning Environment的Atari 2600游戏中的49款游戏，且使用了相同的超参数设置。在49款游戏中，我们的性能超过了非分布式的DQN，在其中41款游戏中表现尤为突出，并且在大多数游戏中，实现这些结果所需的时间也减少了近一个数量级。