2 个月前

优先经验回放

Tom Schaul; John Quan; Ioannis Antonoglou; David Silver

摘要

经验回放（Experience Replay）使在线强化学习代理能够记住并重用过去的经历。在先前的研究中，经验转换是从回放记忆中均匀采样的。然而，这种方法仅仅以它们最初发生的频率重播这些转换，而不考虑其重要性。本文提出了一种优先经验回放框架，以便更频繁地重播重要的转换，从而更高效地学习。我们将在深度Q网络（Deep Q-Networks, DQN）中应用优先经验回放，这是一种在许多Atari游戏中达到人类水平表现的强化学习算法。带有优先经验回放的DQN实现了新的最先进水平，在49款游戏中有41款的表现优于使用均匀回放的DQN。