2 个月前

通过自举DQN进行深度探索

Ian Osband; Charles Blundell; Alexander Pritzel; Benjamin Van Roy
通过自举DQN进行深度探索
摘要

在复杂环境中的高效探索仍然是强化学习面临的主要挑战之一。我们提出了一种基于自举的DQN(bootstrapped DQN)算法,该算法通过使用随机价值函数以计算和统计上高效的方式进行探索。与ε-贪心探索等抖动策略不同,自举DQN执行时间扩展(或深度)探索;这可以显著加快学习速度。我们在复杂的随机MDP(Markov Decision Processes)和大规模的街机学习环境中展示了这些优势。自举DQN在大多数Atari游戏中大幅提高了学习时间和性能。

通过自举DQN进行深度探索 | 最新论文 | HyperAI超神经