
摘要
经验回放(Experience Replay)使在线强化学习代理能够记住并重用过去的经历。在先前的研究中,经验转换是从回放记忆中均匀采样的。然而,这种方法仅仅以它们最初发生的频率重播这些转换,而不考虑其重要性。本文提出了一种优先经验回放框架,以便更频繁地重播重要的转换,从而更高效地学习。我们将在深度Q网络(Deep Q-Networks, DQN)中应用优先经验回放,这是一种在许多Atari游戏中达到人类水平表现的强化学习算法。带有优先经验回放的DQN实现了新的最先进水平,在49款游戏中有41款的表现优于使用均匀回放的DQN。