2 个月前

基于分布的强化学习与分位数回归

Will Dabney; Mark Rowland; Marc G. Bellemare; Rémi Munos

摘要

在强化学习中，智能体通过采取行动并与环境互动来观察下一个状态和奖励。当这些状态转移、奖励和行动以概率方式进行采样时，它们都可能在观察到的长期回报中引入随机性。传统上，强化学习算法通过对这种随机性进行平均来估计价值函数。本文基于近期倡导的一种分布式强化学习方法，该方法明确建模回报的分布，而不仅仅是估计其均值。也就是说，我们研究了学习价值分布而不是价值函数的方法。我们给出了一些结果，填补了Bellemare、Dabney和Munos（2017）在理论与算法结果之间的多个空白。首先，我们将现有结果扩展到了近似分布设置。其次，我们提出了一种新的与我们的理论框架一致的分布式强化学习算法。最后，我们在Atari 2600游戏上评估了这一新算法，观察到它显著优于许多最近对DQN的改进，包括相关的分布式算法C51。