2 个月前

RUDDER:延迟奖励的回报分解方法

Jose A. Arjona-Medina; Michael Gillhofer; Michael Widrich; Thomas Unterthiner; Johannes Brandstetter; Sepp Hochreiter
RUDDER:延迟奖励的回报分解方法
摘要

我们提出了一种新的强化学习方法——RUDDER,用于解决有限马尔可夫决策过程(MDPs)中的延迟奖励问题。在MDPs中,Q值等于预期即时奖励加上预期未来奖励。后者与时间差分(TD)学习中的偏差问题以及蒙特卡洛(MC)学习中的高方差问题有关。当奖励被延迟时,这些问题变得更加严重。RUDDER的目标是使预期未来奖励为零,从而简化Q值估计为计算即时奖励的均值。为了推动预期未来奖励趋近于零,我们提出了以下两个新概念:(i) 奖励重新分配,这会导致回报等价的决策过程,这些过程具有相同的最优策略,并且在最优情况下,未来的预期奖励为零。(ii) 通过贡献分析进行回报分解,这将强化学习任务转化为深度学习擅长的回归任务。在具有延迟奖励的人工任务中,RUDDER比MC显著更快,并且比蒙特卡洛树搜索(MCTS)、TD(λ)和奖励塑形方法快出指数级。在Atari游戏中,基于近端策略优化(PPO)基线的RUDDER提高了游戏得分,在延迟奖励的游戏中最明显。源代码可在https://github.com/ml-jku/rudder获取,演示视频可在https://goo.gl/EQerZV观看。

RUDDER:延迟奖励的回报分解方法 | 最新论文 | HyperAI超神经