
摘要
流行的Q学习算法在某些条件下已知会高估动作值。此前,尚不清楚在实际应用中这种高估是否普遍发生,是否会损害性能,以及是否可以普遍预防。本文对这些问题均给出了肯定的回答。具体而言,我们首先展示了最近的DQN算法(结合了Q学习和深度神经网络)在Atari 2600领域的某些游戏中存在显著的高估现象。然后,我们证明了双Q学习算法背后的思想(最初是在表格设置中提出的)可以推广到大规模函数逼近中。我们提出了一种针对DQN算法的具体改进方法,并证明该改进不仅如预期那样减少了观察到的高估现象,还显著提高了多个游戏的性能。