17 天前

GDI:重新思考使强化学习区别于监督学习的关键因素

{Anonymous}
摘要

深度Q网络(Deep Q Network, DQN)首次通过将深度学习(Deep Learning, DL)与强化学习(Reinforcement Learning, RL)相结合,开启了深度强化学习(Deep Reinforcement Learning, DRL)的大门。DQN敏锐地注意到,在训练过程中所获取数据的分布会发生变化。这一特性可能引发训练不稳定性,因此DQN提出了一系列有效方法以缓解该问题的负面影响。然而,与以往聚焦于该特性的不利影响不同,我们发现:对于强化学习而言,关键在于缩小估计数据分布与真实数据分布之间的差距——而监督学习(Supervised Learning, SL)恰恰无法实现这一点。基于这一全新视角,我们将强化学习的基本范式——广义策略迭代(Generalized Policy Iteration, GPI)——拓展为一种更通用的形式,称为广义数据分布迭代(Generalized Data Distribution Iteration, GDI)。我们发现,大量现有的强化学习算法与技术均可被统一纳入GDI框架之中,GPI可视为GDI的一个特例。本文提供了理论证明,阐明了GDI相较于GPI的优势所在及其内在工作机制。基于GDI框架,我们进一步提出若干实用算法,用以验证其有效性与广泛适用性。实验结果表明,在雅达利学习环境(Arcade Learning Environment, ALE)上,我们的方法取得了当前最先进的性能:平均人类归一化得分(Mean Human Normalized Score, HNS)达到9620.98%,中位数HNS为1146.39%,并在仅使用2亿次训练帧的情况下,成功打破了22项人类世界纪录(Human World Record Breakthroughs, HWRB)。本研究旨在推动强化学习研究迈向攻克人类世界纪录的新阶段,致力于在性能与效率双维度上实现真正的超人类智能代理。