
摘要
在本研究中,我们基于近期在分布强化学习领域的进展,提出了一种普遍适用、灵活且处于前沿的DQN(深度Q网络)分布变体。我们通过使用分位数回归来近似状态-动作回报分布的完整分位数函数,从而实现这一目标。通过对样本空间上的分布进行重新参数化,这产生了一个隐式定义的回报分布,并引发了一大类风险敏感策略。我们在ALE(Arcade Learning Environment)中的57款Atari 2600游戏中展示了改进的性能,并利用算法隐式定义的分布研究了风险敏感策略在Atari游戏中的影响。
在本研究中,我们基于近期在分布强化学习领域的进展,提出了一种普遍适用、灵活且处于前沿的DQN(深度Q网络)分布变体。我们通过使用分位数回归来近似状态-动作回报分布的完整分位数函数,从而实现这一目标。通过对样本空间上的分布进行重新参数化,这产生了一个隐式定义的回报分布,并引发了一大类风险敏感策略。我们在ALE(Arcade Learning Environment)中的57款Atari 2600游戏中展示了改进的性能,并利用算法隐式定义的分布研究了风险敏感策略在Atari游戏中的影响。