2 个月前

使用双Q学习的深度强化学习

Hado van Hasselt; Arthur Guez; David Silver

摘要

流行的Q学习算法在某些条件下已知会高估动作值。此前，尚不清楚在实际应用中这种高估是否普遍发生，是否会损害性能，以及是否可以普遍预防。本文对这些问题均给出了肯定的回答。具体而言，我们首先展示了最近的DQN算法（结合了Q学习和深度神经网络）在Atari 2600领域的某些游戏中存在显著的高估现象。然后，我们证明了双Q学习算法背后的思想（最初是在表格设置中提出的）可以推广到大规模函数逼近中。我们提出了一种针对DQN算法的具体改进方法，并证明该改进不仅如预期那样减少了观察到的高估现象，还显著提高了多个游戏的性能。