HyperAIHyperAI

Command Palette

Search for a command to run...

通过自举DQN进行深度探索

Ian Osband Charles Blundell Alexander Pritzel Benjamin Van Roy

摘要

在复杂环境中的高效探索仍然是强化学习面临的主要挑战之一。我们提出了一种基于自举的DQN(bootstrapped DQN)算法,该算法通过使用随机价值函数以计算和统计上高效的方式进行探索。与ε-贪心探索等抖动策略不同,自举DQN执行时间扩展(或深度)探索;这可以显著加快学习速度。我们在复杂的随机MDP(Markov Decision Processes)和大规模的街机学习环境中展示了这些优势。自举DQN在大多数Atari游戏中大幅提高了学习时间和性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供