2 个月前

基于分布的强化学习与分位数回归

Will Dabney; Mark Rowland; Marc G. Bellemare; Rémi Munos
基于分布的强化学习与分位数回归
摘要

在强化学习中,智能体通过采取行动并与环境互动来观察下一个状态和奖励。当这些状态转移、奖励和行动以概率方式进行采样时,它们都可能在观察到的长期回报中引入随机性。传统上,强化学习算法通过对这种随机性进行平均来估计价值函数。本文基于近期倡导的一种分布式强化学习方法,该方法明确建模回报的分布,而不仅仅是估计其均值。也就是说,我们研究了学习价值分布而不是价值函数的方法。我们给出了一些结果,填补了Bellemare、Dabney和Munos(2017)在理论与算法结果之间的多个空白。首先,我们将现有结果扩展到了近似分布设置。其次,我们提出了一种新的与我们的理论框架一致的分布式强化学习算法。最后,我们在Atari 2600游戏上评估了这一新算法,观察到它显著优于许多最近对DQN的改进,包括相关的分布式算法C51。