2 个月前

强化学习的分布视角

Marc G. Bellemare; Will Dabney; Rémi Munos
强化学习的分布视角
摘要

本文论述了价值分布(value distribution)的基本重要性:即强化学习代理所接收的随机回报的分布。这与常见的强化学习方法形成了对比,后者通常建模该回报的期望值,或称为价值。尽管已有大量文献研究价值分布,但迄今为止,这些研究总是将其用于特定目的,例如实现风险意识行为。我们首先在策略评估和控制设置中提供了理论结果,揭示了后者存在显著的分布不稳定问题。然后,我们利用分布视角设计了一种新算法,该算法将贝尔曼方程应用于近似价值分布的学习。我们使用来自Arcade Learning Environment的游戏套件对我们的算法进行了评估。实验结果不仅达到了当前最佳水平,而且通过具体案例证明了在近似强化学习中价值分布的重要性。最后,我们将理论和实证证据结合起来,强调价值分布在近似设置下对学习过程的影响方式。