Command Palette
Search for a command to run...
分布式深度强化学习:21分钟学会玩Atari游戏
分布式深度强化学习:21分钟学会玩Atari游戏
Igor Adamski; Robert Adamski; Tomasz Grel; Adam Jędrych; Kamil Kaczmarek; Henryk Michalewski
摘要
我们介绍了一项关于分布式深度强化学习(Distributed Deep Reinforcement Learning, DDRL)的研究,重点探讨了最先进的深度强化学习算法之一——批量异步优势演员评论家(Batch Asynchronous Advantage ActorCritic, BA3C)的可扩展性。研究结果表明,使用Adam优化算法并设置批处理大小为2048是一个可行的选择,适用于大规模机器学习计算。结合对优化器超参数的仔细重新评估、在节点级别采用同步训练(同时保持算法的本地、单节点部分异步)、以及最小化模型的内存占用,我们实现了最多64个CPU节点的线性扩展。这相当于在768个CPU核心上进行训练的时间为21分钟,而基线单节点实现(使用24个核心)则需要10小时才能完成相同的训练任务。