
摘要
自举(Bootstrapping)是强化学习(Reinforcement Learning, RL)中的核心机制。大多数基于时序差分(temporal differences)的算法,会用当前对转移状态价值的估计值替代其真实价值。然而,除了状态价值估计之外,还存在另一种可用于自举的估计量:当前策略本身。本文的核心贡献在于一个极为简洁而有力的思想:将缩放后的策略对数(scaled log-policy)加入即时奖励中。我们证明,仅通过对此类修改,对深度Q网络(Deep Q-Network, DQN)进行轻微调整,即可使智能体在Atari游戏上的表现与分布式方法(distributional methods)相媲美,且无需依赖分布式强化学习、n步回报(n-step returns)或优先回放(prioritized replay)等技术。为验证该思想的通用性,我们进一步将其与隐式分位数网络(Implicit Quantile Network, IQN)结合。所得到的智能体在Atari基准测试中超越了Rainbow算法,仅通过极小的改动便实现了新的性能上限(State of the Art)。此外,为支持这一实证研究,本文还提供了强有力的理论分析,揭示了该方法背后的内在机制:隐式Kullback-Leibler(KL)正则化效应,以及动作价值差距(action-gap)的增强。