HyperAIHyperAI

Command Palette

Search for a command to run...

分布式深度强化学习:21分钟学会玩Atari游戏

Igor Adamski; Robert Adamski; Tomasz Grel; Adam Jędrych; Kamil Kaczmarek; Henryk Michalewski

摘要

我们介绍了一项关于分布式深度强化学习(Distributed Deep Reinforcement Learning, DDRL)的研究,重点探讨了最先进的深度强化学习算法之一——批量异步优势演员评论家(Batch Asynchronous Advantage ActorCritic, BA3C)的可扩展性。研究结果表明,使用Adam优化算法并设置批处理大小为2048是一个可行的选择,适用于大规模机器学习计算。结合对优化器超参数的仔细重新评估、在节点级别采用同步训练(同时保持算法的本地、单节点部分异步)、以及最小化模型的内存占用,我们实现了最多64个CPU节点的线性扩展。这相当于在768个CPU核心上进行训练的时间为21分钟,而基线单节点实现(使用24个核心)则需要10小时才能完成相同的训练任务。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供