13日前

分散型強化学習における再帰的経験再生

{Steven Kapturowski, Will Dabney, Remi Munos, John Quan, Georg Ostrovski}
分散型強化学習における再帰的経験再生
要約

最近の強化学習(RL)エージェントにおける分散学習の成功を踏まえ、本論文では、分散型の優先順位付き経験再生(prioritized experience replay)からRNNベースのRLエージェントを学習する手法を検討する。パラメータの遅延が引き起こす表現のずれ(representational drift)および再帰状態の陳腐化(recurrent state staleness)の影響を分析し、実証的により優れた学習戦略を導出する。単一のネットワークアーキテクチャと固定されたハイパーパラメータを用いることで、得られたエージェント「Recurrent Replay Distributed DQN」は、Atari-57において従来の最良成績を4倍に達成し、DMLab-30では既存の最良性能を上回った。また、本エージェントは、57種類のAtariゲームのうち52種で人間レベルの性能を上回る初めてのエージェントである。

分散型強化学習における再帰的経験再生 | 最新論文 | HyperAI超神経