17 天前
永不放弃:学习定向探索策略
Adrià Puigdomènech Badia, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Bilal Piot, Steven Kapturowski, Olivier Tieleman, Martín Arjovsky, Alexander Pritzel, Andew Bolt, Charles Blundell

摘要
我们提出了一种强化学习智能体,通过学习一系列具有方向性的探索策略来解决高难度探索类游戏。该方法基于智能体近期经验,利用k近邻(k-nearest neighbors)构建一种基于回合记忆的内在奖励机制,用于训练这些方向性探索策略,从而促使智能体反复访问其环境中的所有状态。为进一步提升探索效率,我们采用自监督的逆动力学模型来训练最近邻查找的嵌入表示,使新颖性信号偏向于智能体能够控制的动态变化。通过采用通用价值函数近似器(Universal Value Function Approximators, UVFA)框架,我们仅使用单一神经网络即可同时学习多种具有不同探索与利用权衡的定向探索策略。利用同一神经网络实现不同程度的探索/利用行为,我们验证了从以探索为主导的策略向高效利用策略的迁移能力。该方法可无缝集成至现代分布式强化学习架构中,支持多个智能体在独立环境实例上并行运行并收集大量经验。在Atari-57基准套件中的所有高难度探索任务上,该方法使基线智能体的性能提升一倍,同时在其余游戏中仍保持极高的得分水平,获得中位数人类归一化得分为1344.0%。值得注意的是,该方法是首个在未使用示范数据或人工设计特征的情况下,成功在《Pitfall!》游戏中获得非零奖励(平均得分达8,400)的算法。