2 个月前

通过自举DQN进行深度探索

Ian Osband; Charles Blundell; Alexander Pritzel; Benjamin Van Roy

摘要

在复杂环境中的高效探索仍然是强化学习面临的主要挑战之一。我们提出了一种基于自举的DQN（bootstrapped DQN）算法，该算法通过使用随机价值函数以计算和统计上高效的方式进行探索。与ε-贪心探索等抖动策略不同，自举DQN执行时间扩展（或深度）探索；这可以显著加快学习速度。我们在复杂的随机MDP（Markov Decision Processes）和大规模的街机学习环境中展示了这些优势。自举DQN在大多数Atari游戏中大幅提高了学习时间和性能。