HyperAI超神経

概要

最近の強化学習（RL）エージェントにおける分散学習の成功を踏まえ、本論文では、分散型の優先順位付き経験再生（prioritized experience replay）からRNNベースのRLエージェントを学習する手法を検討する。パラメータの遅延が引き起こす表現のずれ（representational drift）および再帰状態の陳腐化（recurrent state staleness）の影響を分析し、実証的により優れた学習戦略を導出する。単一のネットワークアーキテクチャと固定されたハイパーパラメータを用いることで、得られたエージェント「Recurrent Replay Distributed DQN」は、Atari-57において従来の最良成績を4倍に達成し、DMLab-30では既存の最良性能を上回った。また、本エージェントは、57種類のAtariゲームのうち52種で人間レベルの性能を上回る初めてのエージェントである。

概要

Steven Kapturowski Will Dabney Remi Munos John Quan Georg Ostrovski

概要

AIでAIを構築

HyperAI Newsletters

Steven Kapturowski Will Dabney Remi Munos John Quan Georg Ostrovski

概要

AIでAIを構築

HyperAI Newsletters

Steven Kapturowski Will Dabney Remi Munos John Quan Georg Ostrovski

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

分散型強化学習における再帰的経験再生

Steven Kapturowski Will Dabney Remi Munos John Quan Georg Ostrovski

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

分散型強化学習における再帰的経験再生

Steven Kapturowski Will Dabney Remi Munos John Quan Georg Ostrovski

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

分散型強化学習における再帰的経験再生

Steven Kapturowski Will Dabney Remi Munos John Quan Georg Ostrovski

概要

AIでAIを構築

HyperAI Newsletters