17日前

オフポリシー・アクターキャリック with シェアド・エクスペリエンスリプレイ

Simon Schmitt, Matteo Hessel, Karen Simonyan

要約

本研究では、アクタ・クリティック強化学習アルゴリズムと均一な大規模な経験リプレイ（experience replay）の組み合わせについて検討し、以下の2つの課題に対する解決策を提案する：(a) 経験リプレイを用いた効率的なアクタ・クリティック学習、(b) オフポリシー学習の安定性——すなわち、エージェントが他のエージェントの行動から学習する状況における安定性。これらの知見を活かして、すべての参加エージェントが並列で実行され、共通のリプレイモジュールを通じて経験を共有するハイパーパラメータスイープを高速化する手法を構築する。そのために、アクタ・クリティック手法における重要度サンプリングの一種であるV-traceにおけるバイアス・バリアンスのトレードオフを分析する。本分析に基づき、リプレイから抽出した経験とオンポリシー経験を混合することの有効性を主張し、V-traceが不安定になるようなデータ分布に対しても効果的にスケーラブルな新しい信頼領域（trust region）スキームを提案する。提案手法の有効性を広範な実証実験により検証する。さらに、2億環境フレームまで訓練されたエージェントにおいて、Atariゲームにおいて最先端のデータ効率を達成できることを示し、本設定の利点を実証する。