
深層強化学習(DRL)における高いサンプル効率と優れた最終性能を同時に達成することは、長年にわたり主要な課題の一つであった。従来の研究では、これらの課題のいずれかを処理することは可能であったが、同時に両者を解決することは一般的に困難であった。本論文では、この二つの課題を同時に克服することを目指す。そのために、まずこれらの課題を、データの豊富さと探索・活用のトレードオフという二つの古典的な強化学習問題に分解する。次に、これらの問題を、限られた相互作用回数内で望ましい訓練データを獲得するという訓練データ分布の最適化問題として定式化し、以下の二つのアプローチにより同時に解決する:i) 行動方策の能力および多様性を明示的にモデル化・制御すること、ii) 単調なデータ分布最適化を用いた、より細分化かつ適応的な行動方策の選択的/サンプリング分布の制御。最終的に、このプロセスを一般化された方策反復(Generalized Policy Iteration: GPI)に統合し、より汎用的な枠組みである一般化データ分布反復(Generalized Data Distribution Iteration: GDI)を提案する。GDI枠組みを用いて、DQNからAgent57に至る代表的な強化学習手法のオペレータベースのバージョンを導入する。GPIに対するGDIの優位性に関する理論的保証を示す。また、アーケード学習環境(Arcade Learning Environment: ALE)において、本手法が200Mの訓練フレームのみを用いて、平均ヒューマン正規化スコア(HNS)9620.33%、中央値HNS 1146.39%を達成し、22件のヒューマン世界記録を上回ることを実証した。これは、Agent57と同等の性能を達成しつつ、データ消費量は500分の1にまで削減されたものである。我々は、ALEにおいて真正のスーパーヒューマンエージェントを実現するには、まだ長きにわたる道のりがあると主張する。