17日前

決してあきらめるな:方向性のある探索戦略の学習

Adrià Puigdomènech Badia, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Bilal Piot, Steven Kapturowski, Olivier Tieleman, Martín Arjovsky, Alexander Pritzel, Andew Bolt, Charles Blundell
決してあきらめるな:方向性のある探索戦略の学習
要約

我々は、多様な方向性を持つ探索方策を学習することにより、困難な探索課題を解くための強化学習エージェントを提案する。この手法では、エージェントの最近の経験に対してk近傍法(k-nearest neighbors)を用いてエピソード記憶ベースの内在的報酬を構築し、方向性のある探索方策を学習する。これにより、エージェントが環境内のすべての状態を繰り返し訪問するよう促進される。さらに、自己教師付きの逆動力学モデルを用いて最近傍探索の埋め込み(embeddings)を学習することで、新規性信号(novelty signal)がエージェントが制御可能な要素に偏るようにする。本手法では、普遍的価値関数近似器(Universal Value Function Approximators, UVFA)の枠組みを採用し、同一のニューラルネットワークを用いて、探索と活用のトレードオフを異なる設定で同時に多数の方向性探索方策を学習する。探索度合いの異なる方策を同一ネットワークで実現することで、主に探索に偏った方策から効果的な活用方策への転移が実証された。提案手法は、多数のエージェントが別々の環境インスタンス上で並列に実行され、大量の経験を収集する現代的な分散強化学習エージェントと統合して運用可能である。Atari-57ベンチマークにおける困難な探索課題において、ベースラインエージェントの性能を2倍に向上させつつ、残りのゲームにおいても非常に高いスコアを維持し、人間正規化スコアの中央値として1344.0%を達成した。特に注目すべきは、本手法が、示範(demonstrations)や手作業による特徴設計を用いずに、Pitfall!というゲームで非ゼロの報酬(平均スコア8,400)を達成した初めてのアルゴリズムである点である。

決してあきらめるな:方向性のある探索戦略の学習 | 最新論文 | HyperAI超神経