11 天前

GDI:重新思考强化学习与监督学习的本质差异

Jiajun Fan, Changnan Xiao, Yue Huang
GDI:重新思考强化学习与监督学习的本质差异
摘要

深度Q网络(Deep Q Network, DQN)首次通过将深度学习(Deep Learning, DL)与强化学习(Reinforcement Learning, RL)相结合,开启了深度强化学习(Deep Reinforcement Learning, DRL)的大门。DQN敏锐地注意到,在训练过程中所获取数据的分布会动态变化。该方法识别出这一特性可能引发训练不稳定性,因而提出了一系列有效机制以缓解其负面影响。然而,与以往聚焦于该特性的不利影响不同,我们发现:对于强化学习而言,关键在于缩小估计数据分布与真实数据分布之间的差距——而监督学习(Supervised Learning, SL)则无法实现这一点。基于这一全新的视角,我们对强化学习的基本范式——广义策略迭代(Generalized Policy Iteration, GPI)——进行了拓展,提出了一种更为通用的框架,称为广义数据分布迭代(Generalized Data Distribution Iteration, GDI)。我们发现,大量现有的强化学习算法与技术均可被统一纳入GDI框架之下,GPI可视为GDI的一个特例。本文提供了理论证明,阐明了GDI相较于GPI的优势所在及其内在工作机制。基于GDI框架,我们进一步提出了若干实用性强的算法,以验证其有效性与广泛适用性。大量实证实验表明,我们的方法在雅达利学习环境(Arcade Learning Environment, ALE)上取得了当前最先进的性能:在仅使用2亿次训练帧的前提下,平均人类归一化得分(Mean Human Normalized Score, HNS)达到9620.98%,中位数HNS达1146.39%,并实现了22项人类世界纪录的突破(Human World Record Breakthroughs, HWRB)。本研究旨在推动强化学习研究迈向突破人类极限的新阶段,致力于在性能与效率双重维度上探索真正具备超人类能力的智能体。