2 个月前
大规模好奇心驱动学习研究
Yuri Burda; Harri Edwards; Deepak Pathak; Amos Storkey; Trevor Darrell; Alexei A. Efros

摘要
强化学习算法依赖于精心设计的环境奖励,这些奖励对于智能体而言是外部的。然而,为每个环境手动设计密集的奖励并不具备可扩展性,这促使了开发出对智能体而言是内部的奖励函数的需求。好奇心是一种利用预测误差作为奖励信号的内部奖励函数。在本文中:(a) 我们首次进行了大规模研究,探讨了仅由好奇心驱动的学习(即没有任何外部奖励)在54个标准基准环境中的表现,包括Atari游戏套件。我们的结果显示了令人惊讶的良好性能,并且在许多游戏环境中,内部好奇心目标与手动设计的外部奖励之间表现出高度的一致性。(b) 我们研究了使用不同特征空间计算预测误差的影响,并表明随机特征对于许多流行的强化学习游戏基准已经足够,但学习到的特征似乎具有更好的泛化能力(例如,在《超级马里奥兄弟》的新关卡中)。(c) 我们展示了基于预测的奖励在随机设置中的局限性。游戏视频和代码可在https://pathak22.github.io/large-scale-curiosity/ 获取。