HyperAIHyperAI

Command Palette

Search for a command to run...

大规模并行深度强化学习方法

摘要

我们提出了首个大规模分布式深度强化学习架构。该架构主要由四个组件构成:生成新行为的并行执行器;从存储的经验中进行训练的并行学习器;用于表示价值函数或行为策略的分布式神经网络;以及分布式经验存储库。我们利用该架构实现了深度Q网络算法(Deep Q-Network, DQN)。我们的分布式算法被应用于来自Arcade Learning Environment的Atari 2600游戏中的49款游戏,且使用了相同的超参数设置。在49款游戏中,我们的性能超过了非分布式的DQN,在其中41款游戏中表现尤为突出,并且在大多数游戏中,实现这些结果所需的时间也减少了近一个数量级。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供