17日前

GDI:強化学習が教師あり学習と異なる理由の再考

{Anonymous}
要約

ディープQネットワーク(DQN)は、ディープラーニング(DL)と強化学習(RL)を統合することで、深層強化学習(DRL)の道を開いた。DQNは、学習過程において取得データの分布が変化することに着目し、この性質が学習の安定性を損なう可能性があることを指摘した。そこで、この性質に起因する課題を効果的に対処する手法を提案した。しかし、我々はこの性質の悪影響に注目するのではなく、教師あり学習(SL)がそのようなデータ分布のギャップを緩和できないのに対し、強化学習(RL)において推定されたデータ分布と真のデータ分布との一致を容易にすることが極めて重要であると捉える。この新たな視点から、基本的なRL枠組みである一般化方策反復(Generalized Policy Iteration, GPI)をより一般的な形に拡張し、一般化データ分布反復(Generalized Data Distribution Iteration, GDI)と呼ぶ新たな枠組みを提案した。本研究では、多数の強化学習アルゴリズムおよび技術がGDIの枠組みに統一可能であることを示しており、それらはGDIの特殊なケースとして捉えられる。さらに、GDIがGPIよりも優れている理由について理論的な証明を行い、その動作原理を明確にした。これに基づき、実用的なGDIに基づく複数のアルゴリズムが提案され、その有効性と汎用性が実証された。実験結果は、アーケード学習環境(Arcade Learning Environment, ALE)において最先端(SOTA)の性能を達成していることを示しており、わずか2億フレームの学習で、平均人間正規化スコア(HNS)9620.98%、中央値HNS 1146.39%、人間の世界記録突破(HWRB)22件を達成した。本研究の目的は、強化学習の研究が人間の世界記録を打ち破る道へと進む一歩を踏み出し、性能と効率の両面で本物の超人レベルのエージェントの実現を目指すことにある。