HyperAIHyperAI

Command Palette

Search for a command to run...

统一基于计数的探索和内在动机

Marc G. Bellemare; Sriram Srinivasan; Georg Ostrovski; Tom Schaul; David Saxton; Remi Munos

摘要

我们考虑智能体对其环境的不确定性以及如何在观测中泛化这种不确定性的问题。具体而言,我们关注非表格强化学习中的探索问题。借鉴内在动机领域的研究成果,我们使用密度模型来衡量不确定性,并提出了一种从任意密度模型中推导出伪计数的新算法。该技术使我们能够将基于计数的探索算法推广到非表格情况。我们将这些想法应用于Atari 2600游戏,从原始像素中生成合理的伪计数。通过将这些伪计数转换为内在奖励,我们在多个难度较高的游戏中显著提高了探索效果,包括著名的高难度游戏《蒙特祖玛的复仇》(Montezuma's Revenge)。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供