2 个月前

大规模并行深度强化学习方法

Arun Nair; Praveen Srinivasan; Sam Blackwell; Cagdas Alcicek; Rory Fearon; Alessandro De Maria; Vedavyas Panneershelvam; Mustafa Suleyman; Charles Beattie; Stig Petersen; Shane Legg; Volodymyr Mnih; Koray Kavukcuoglu; David Silver
大规模并行深度强化学习方法
摘要

我们提出了首个大规模分布式深度强化学习架构。该架构主要由四个组件构成:生成新行为的并行执行器;从存储的经验中进行训练的并行学习器;用于表示价值函数或行为策略的分布式神经网络;以及分布式经验存储库。我们利用该架构实现了深度Q网络算法(Deep Q-Network, DQN)。我们的分布式算法被应用于来自Arcade Learning Environment的Atari 2600游戏中的49款游戏,且使用了相同的超参数设置。在49款游戏中,我们的性能超过了非分布式的DQN,在其中41款游戏中表现尤为突出,并且在大多数游戏中,实现这些结果所需的时间也减少了近一个数量级。