13 天前

Agent57:超越雅达利人类基准

Adrià Puigdomènech Badia, Bilal Piot, Steven Kapturowski, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Charles Blundell
Agent57:超越雅达利人类基准
摘要

过去十年中,Atari游戏一直是强化学习(RL)领域长期使用的基准测试集,旨在评估强化学习算法的通用能力。以往的研究虽在该测试集中的多数游戏中表现优异,但对其中最具有挑战性的几款游戏表现却极为不佳。为此,我们提出了Agent57——首个在全部57款Atari游戏中均超越人类标准表现的深度强化学习智能体。为实现这一突破,我们训练了一个神经网络,该网络参数化了一组从高度探索性到完全利用性(exploitative)的策略集合。我们进一步提出了一种自适应机制,用于在训练过程中动态选择应优先采用的策略。此外,我们还引入了一种新颖的网络架构参数化方法,显著提升了学习过程的一致性与稳定性。