
摘要
在近期分布式强化学习(RL)智能体训练取得成功的基础上,本文研究了基于循环神经网络(RNN)的强化学习智能体从分布式优先经验回放(prioritized experience replay)中进行训练的方法。我们分析了参数延迟所导致的表征漂移(representational drift)与循环状态滞后的现象,并通过实验提出了改进的训练策略。在采用单一网络架构和固定超参数设置的前提下,所提出的智能体——循环优先经验回放分布式DQN(Recurrent Replay Distributed DQN)——在Atari-57基准上将此前的最先进水平提升了四倍,并在DMLab-30任务上超越了现有最优性能。该智能体是首个在57个Atari游戏中的52个游戏中达到并超过人类水平表现的智能体。