2 个月前

分布式强化学习中的循环经验回放

{Steven Kapturowski, Will Dabney, Remi Munos, John Quan, Georg Ostrovski}

摘要

在近期分布式强化学习（RL）智能体训练取得成功的基础上，本文研究了基于循环神经网络（RNN）的强化学习智能体从分布式优先经验回放（prioritized experience replay）中进行训练的方法。我们分析了参数延迟所导致的表征漂移（representational drift）与循环状态滞后的现象，并通过实验提出了改进的训练策略。在采用单一网络架构和固定超参数设置的前提下，所提出的智能体——循环优先经验回放分布式DQN（Recurrent Replay Distributed DQN）——在Atari-57基准上将此前的最先进水平提升了四倍，并在DMLab-30任务上超越了现有最优性能。该智能体是首个在57个Atari游戏中的52个游戏中达到并超过人类水平表现的智能体。