17 天前

可学习的行为控制:通过样本高效的行為选择突破Atari人类世界纪录

Jiajun Fan, Yuzheng Zhuang, Yuecheng Liu, Jianye Hao, Bin Wang, Jiangcheng Zhu, Hao Wang, Shu-Tao Xia
可学习的行为控制:通过样本高效的行為选择突破Atari人类世界纪录
摘要

探索问题一直是深度强化学习(Deep Reinforcement Learning, RL)中的主要挑战之一。近期一些有前景的研究尝试通过基于种群的方法来应对该问题,这类方法通过一组不同的探索性策略生成具有多样行为的样本。为了实现对行为的有效控制,研究中采用了自适应策略选择机制。然而,由于行为选择空间受限于预先设定的策略种群,导致行为多样性受到显著制约。针对这一局限,本文提出一种通用框架——可学习行为控制(Learnable Behavioral Control, LBC),该框架具备以下两个关键优势:a)通过构建所有策略的混合行为映射,显著扩展了行为选择空间;b)建立了一个统一的可学习行为选择过程。我们将LBC引入分布式离线策略演员-评论家方法中,并通过基于多臂赌博机(bandit-based)的元控制器优化行为映射的选择策略,实现高效的行为控制。实验结果表明,在雅达利学习环境(Arcade Learning Environment)中,我们的智能体在10亿训练帧内取得了平均人类归一化得分10077.52%的优异表现,并超越了24项人类世界纪录,充分展现了该方法在不牺牲样本效率的前提下,达到显著领先于当前最先进(State-of-the-Art, SOTA)水平的性能。