HyperAIHyperAI

Command Palette

Search for a command to run...

使用双Q学习的深度强化学习

Hado van Hasselt; Arthur Guez; David Silver

摘要

流行的Q学习算法在某些条件下已知会高估动作值。此前,尚不清楚在实际应用中这种高估是否普遍发生,是否会损害性能,以及是否可以普遍预防。本文对这些问题均给出了肯定的回答。具体而言,我们首先展示了最近的DQN算法(结合了Q学习和深度神经网络)在Atari 2600领域的某些游戏中存在显著的高估现象。然后,我们证明了双Q学习算法背后的思想(最初是在表格设置中提出的)可以推广到大规模函数逼近中。我们提出了一种针对DQN算法的具体改进方法,并证明该改进不仅如预期那样减少了观察到的高估现象,还显著提高了多个游戏的性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供