
摘要
分布强化学习(Distributional Reinforcement Learning, RL)与传统强化学习的主要区别在于,它不直接估计总回报的期望值,而是对回报分布进行建模,在Atari游戏上已实现当前最先进的性能。在实际应用中,分布强化学习算法面临的核心挑战是如何对估计的分布进行参数化,以更准确地逼近真实的连续分布。现有的分布强化学习算法通常仅对分布函数的概率侧或回报值侧进行参数化:例如C51、QR-DQN算法将另一侧固定为均匀分布,而IQN算法则随机采样另一侧。本文提出一种完全参数化的分位数函数,该方法同时对分位数分数轴(即x轴)和值轴(即y轴)进行参数化,从而实现对分布的全面建模。所提出的算法包含两个网络:一个分位数分数提议网络(fraction proposal network),用于生成一组离散的分位数分数;另一个分位数值网络(quantile value network),用于输出对应的分位数值。两个网络通过联合训练,共同逼近真实分布的最佳近似。在55个Atari游戏上的实验结果表明,该算法显著优于现有分布强化学习方法,并为非分布式代理在Atari学习环境(Atari Learning Environment)中创造了新的性能纪录。