17 天前

通用数据分布迭代

Jiajun Fan, Changnan Xiao
通用数据分布迭代
摘要

实现更高的样本效率与更优的最终性能,一直是深度强化学习(Deep Reinforcement Learning, DRL)领域面临的核心挑战之一。以往的研究往往只能解决其中一项挑战,却难以同时兼顾二者。本文旨在协同应对这两大挑战。为此,我们首先将这两个目标解耦为两个经典的强化学习问题:数据丰富性问题与探索-利用权衡问题。随后,我们将这两个问题统一建模为训练数据分布优化问题,即在有限交互次数内获取理想的训练数据,并通过以下两种机制实现协同解决:i)显式建模与调控行为策略的容量与多样性;ii)基于单调数据分布优化,实现对行为策略选择性/采样分布的更细粒度、自适应调控。最终,我们将该过程整合进广义策略迭代(Generalized Policy Iteration, GPI)框架,提出一种更具通用性的新框架——广义数据分布迭代(Generalized Data Distribution Iteration, GDI)。基于GDI框架,我们进一步推出了从DQN到Agent57等经典强化学习方法的算子化版本。理论上,我们证明了GDI相较于传统GPI框架在性能上的优越性。在雅达利学习环境(Arcade Learning Environment, ALE)上的实验结果表明,所提算法在仅使用2亿次训练帧的情况下,取得了9620.33%的平均人类归一化得分(Mean Human Normalized Score, HNS)、1146.39%的中位数HNS,并超越了22项人类世界纪录,性能达到当前最先进水平(State-of-the-Art, SOTA)。值得注意的是,我们的方法在性能上可与Agent57相媲美,但训练数据消耗仅为后者的1/500。尽管如此,我们仍认为,在ALE环境中实现真正超越人类水平的智能体,仍需经历长期的探索与突破。

通用数据分布迭代 | 最新论文 | HyperAI超神经