2 个月前

深度强化学习的异步方法

Volodymyr Mnih; Adrià Puigdomènech Badia; Mehdi Mirza; Alex Graves; Timothy P. Lillicrap; Tim Harley; David Silver; Koray Kavukcuoglu
深度强化学习的异步方法
摘要

我们提出了一种概念上简单且轻量级的深度强化学习框架,该框架利用异步梯度下降来优化深度神经网络控制器。我们介绍了四种标准强化学习算法的异步变体,并展示了并行的行为者-学习者对训练具有稳定作用,使得所有四种方法都能成功地训练神经网络控制器。表现最佳的方法是一种异步变体的演员-评论家(actor-critic)算法,它在Atari游戏领域超越了当前的最先进水平,同时仅使用单个多核CPU而非GPU进行训练,时间缩短了一半。此外,我们还证明了异步演员-评论家算法在广泛的连续运动控制问题以及一项新的任务——使用视觉输入导航随机3D迷宫中也取得了成功。