7 个月前

计算机视觉

计算机视觉

Georg Ostrovski; Marc G. Bellemare; Aaron van den Oord; Remi Munos

摘要

贝尔马尔等人（2016）引入了从密度模型中派生的伪计数概念，以将基于计数的探索方法推广到非表格强化学习中。该伪计数被用于为DQN代理生成探索奖励，并结合混合蒙特卡洛更新，足以在Atari 2600游戏《蒙特祖玛的复仇》中达到当时最先进的水平。他们的工作留下了两个未解决的问题：首先，密度模型的质量对探索有多重要？其次，蒙特卡洛更新在探索中扮演什么角色？我们通过展示如何使用PixelCNN（一种先进的图像神经密度模型）来提供伪计数，回答了第一个问题。特别是，我们探讨了当模型假设被违反时，适应贝尔马尔等人方法所面临的内在困难。结果是一种更加实用和通用的算法，无需特殊设备。我们将PixelCNN伪计数与不同的代理架构相结合，在多个难度较大的Atari游戏中显著提升了当前的最先进水平。一个令人惊讶的发现是，在最稀疏的环境中，包括《蒙特祖玛的复仇》，混合蒙特卡洛更新是促进探索的强大工具。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

计算机视觉

Georg Ostrovski; Marc G. Bellemare; Aaron van den Oord; Remi Munos

摘要

贝尔马尔等人（2016）引入了从密度模型中派生的伪计数概念，以将基于计数的探索方法推广到非表格强化学习中。该伪计数被用于为DQN代理生成探索奖励，并结合混合蒙特卡洛更新，足以在Atari 2600游戏《蒙特祖玛的复仇》中达到当时最先进的水平。他们的工作留下了两个未解决的问题：首先，密度模型的质量对探索有多重要？其次，蒙特卡洛更新在探索中扮演什么角色？我们通过展示如何使用PixelCNN（一种先进的图像神经密度模型）来提供伪计数，回答了第一个问题。特别是，我们探讨了当模型假设被违反时，适应贝尔马尔等人方法所面临的内在困难。结果是一种更加实用和通用的算法，无需特殊设备。我们将PixelCNN伪计数与不同的代理架构相结合，在多个难度较大的Atari游戏中显著提升了当前的最先进水平。一个令人惊讶的发现是，在最稀疏的环境中，包括《蒙特祖玛的复仇》，混合蒙特卡洛更新是促进探索的强大工具。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供