2 个月前

RUDDER：延迟奖励的回报分解方法

Jose A. Arjona-Medina; Michael Gillhofer; Michael Widrich; Thomas Unterthiner; Johannes Brandstetter; Sepp Hochreiter

摘要

我们提出了一种新的强化学习方法——RUDDER，用于解决有限马尔可夫决策过程（MDPs）中的延迟奖励问题。在MDPs中，Q值等于预期即时奖励加上预期未来奖励。后者与时间差分（TD）学习中的偏差问题以及蒙特卡洛（MC）学习中的高方差问题有关。当奖励被延迟时，这些问题变得更加严重。RUDDER的目标是使预期未来奖励为零，从而简化Q值估计为计算即时奖励的均值。为了推动预期未来奖励趋近于零，我们提出了以下两个新概念：(i) 奖励重新分配，这会导致回报等价的决策过程，这些过程具有相同的最优策略，并且在最优情况下，未来的预期奖励为零。(ii) 通过贡献分析进行回报分解，这将强化学习任务转化为深度学习擅长的回归任务。在具有延迟奖励的人工任务中，RUDDER比MC显著更快，并且比蒙特卡洛树搜索（MCTS）、TD(λ)和奖励塑形方法快出指数级。在Atari游戏中，基于近端策略优化（PPO）基线的RUDDER提高了游戏得分，在延迟奖励的游戏中最明显。源代码可在https://github.com/ml-jku/rudder获取，演示视频可在https://goo.gl/EQerZV观看。