17 天前

使用离散世界模型掌握Atari游戏

Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, Jimmy Ba
使用离散世界模型掌握Atari游戏
摘要

智能代理需要从过往经验中进行泛化,以在复杂环境中达成目标。世界模型有助于实现这种泛化,并通过从想象的后果中学习行为,提升样本效率。尽管近年来基于图像输入学习世界模型在某些任务中已变得可行,但要构建足够精确的Atari游戏世界模型以推导出有效行为,长期以来仍是未解难题。本文提出DreamerV2,一种仅通过强大世界模型的紧凑隐空间中的预测来学习行为的强化学习代理。该世界模型采用离散表示,并与策略网络独立训练。DreamerV2是首个在55项Atari基准任务上实现人类水平性能的智能体,其行为学习完全基于一个独立训练的世界模型。在相同的计算预算和实际运行时间下,DreamerV2可达到2亿帧的训练量,其最终性能超越了当前单GPU顶尖代理IQN与Rainbow。此外,DreamerV2还可应用于连续动作任务,能够从仅像素输入中学习到一个复杂人形机器人的高精度世界模型,并成功实现站立与行走等复杂行为。