HyperAIHyperAI

Command Palette

Search for a command to run...

分布式强化学习中的循环经验回放

Steven Kapturowski Will Dabney Remi Munos John Quan Georg Ostrovski

摘要

在近期分布式强化学习(RL)智能体训练取得成功的基础上,本文研究了基于循环神经网络(RNN)的强化学习智能体从分布式优先经验回放(prioritized experience replay)中进行训练的方法。我们分析了参数延迟所导致的表征漂移(representational drift)与循环状态滞后的现象,并通过实验提出了改进的训练策略。在采用单一网络架构和固定超参数设置的前提下,所提出的智能体——循环优先经验回放分布式DQN(Recurrent Replay Distributed DQN)——在Atari-57基准上将此前的最先进水平提升了四倍,并在DMLab-30任务上超越了现有最优性能。该智能体是首个在57个Atari游戏中的52个游戏中达到并超过人类水平表现的智能体。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供