2 个月前

基于计数的探索与神经密度模型

Georg Ostrovski; Marc G. Bellemare; Aaron van den Oord; Remi Munos
基于计数的探索与神经密度模型
摘要

贝尔马尔等人(2016)引入了从密度模型中派生的伪计数概念,以将基于计数的探索方法推广到非表格强化学习中。该伪计数被用于为DQN代理生成探索奖励,并结合混合蒙特卡洛更新,足以在Atari 2600游戏《蒙特祖玛的复仇》中达到当时最先进的水平。他们的工作留下了两个未解决的问题:首先,密度模型的质量对探索有多重要?其次,蒙特卡洛更新在探索中扮演什么角色?我们通过展示如何使用PixelCNN(一种先进的图像神经密度模型)来提供伪计数,回答了第一个问题。特别是,我们探讨了当模型假设被违反时,适应贝尔马尔等人方法所面临的内在困难。结果是一种更加实用和通用的算法,无需特殊设备。我们将PixelCNN伪计数与不同的代理架构相结合,在多个难度较大的Atari游戏中显著提升了当前的最先进水平。一个令人惊讶的发现是,在最稀疏的环境中,包括《蒙特祖玛的复仇》,混合蒙特卡洛更新是促进探索的强大工具。