
摘要
在复杂环境中的高效探索仍然是强化学习面临的主要挑战之一。我们提出了一种基于自举的DQN(bootstrapped DQN)算法,该算法通过使用随机价值函数以计算和统计上高效的方式进行探索。与ε-贪心探索等抖动策略不同,自举DQN执行时间扩展(或深度)探索;这可以显著加快学习速度。我们在复杂的随机MDP(Markov Decision Processes)和大规模的街机学习环境中展示了这些优势。自举DQN在大多数Atari游戏中大幅提高了学习时间和性能。
在复杂环境中的高效探索仍然是强化学习面临的主要挑战之一。我们提出了一种基于自举的DQN(bootstrapped DQN)算法,该算法通过使用随机价值函数以计算和统计上高效的方式进行探索。与ε-贪心探索等抖动策略不同,自举DQN执行时间扩展(或深度)探索;这可以显著加快学习速度。我们在复杂的随机MDP(Markov Decision Processes)和大规模的街机学习环境中展示了这些优势。自举DQN在大多数Atari游戏中大幅提高了学习时间和性能。