HyperAIHyperAI

Command Palette

Search for a command to run...

分布式优先经验回放

Dan Horgan John Quan David Budden Gabriel Barth-Maron Matteo Hessel Hado van Hasselt David Silver

摘要

我们提出了一种分布式架构,用于大规模深度强化学习,该架构使智能体能够从比以往可能的数量多几个数量级的数据中有效学习。该算法将行为与学习解耦:行为者根据共享神经网络选择动作并与环境的独立实例进行交互,将由此产生的经验累积到共享的经验回放记忆中;学习者则重播经验样本并更新神经网络。该架构依赖于优先经验回放(Prioritized Experience Replay),以专注于由行为者生成的最重要数据。我们的架构在街机学习环境(Arcade Learning Environment)上显著提升了现有技术水平,不仅在较短的实际训练时间内实现了更好的最终性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供