13日前
分散型強化学習における再帰的経験再生
{Steven Kapturowski, Will Dabney, Remi Munos, John Quan, Georg Ostrovski}

要約
最近の強化学習(RL)エージェントにおける分散学習の成功を踏まえ、本論文では、分散型の優先順位付き経験再生(prioritized experience replay)からRNNベースのRLエージェントを学習する手法を検討する。パラメータの遅延が引き起こす表現のずれ(representational drift)および再帰状態の陳腐化(recurrent state staleness)の影響を分析し、実証的により優れた学習戦略を導出する。単一のネットワークアーキテクチャと固定されたハイパーパラメータを用いることで、得られたエージェント「Recurrent Replay Distributed DQN」は、Atari-57において従来の最良成績を4倍に達成し、DMLab-30では既存の最良性能を上回った。また、本エージェントは、57種類のAtariゲームのうち52種で人間レベルの性能を上回る初めてのエージェントである。