
摘要
大多数学习算法对所逼近函数的尺度并不具有不变性。我们提出了一种自适应归一化目标值的方法,这在基于价值的强化学习中尤为有用。在基于价值的强化学习中,随着行为策略的更新,合适的值逼近的量级可能会随时间发生变化。我们的主要动机来自于之前关于学习玩Atari游戏的研究,其中所有奖励都被裁剪到一个预设范围内。这种裁剪有助于使用单一学习算法跨多个不同游戏进行学习,但被裁剪的奖励函数可能导致定性不同的行为表现。通过使用自适应归一化方法,我们可以移除这一特定领域的启发式方法而不降低整体性能。
大多数学习算法对所逼近函数的尺度并不具有不变性。我们提出了一种自适应归一化目标值的方法,这在基于价值的强化学习中尤为有用。在基于价值的强化学习中,随着行为策略的更新,合适的值逼近的量级可能会随时间发生变化。我们的主要动机来自于之前关于学习玩Atari游戏的研究,其中所有奖励都被裁剪到一个预设范围内。这种裁剪有助于使用单一学习算法跨多个不同游戏进行学习,但被裁剪的奖励函数可能导致定性不同的行为表现。通过使用自适应归一化方法,我们可以移除这一特定领域的启发式方法而不降低整体性能。