11日前

GDI：強化学習が教師あり学習と異なる理由の再考

Jiajun Fan, Changnan Xiao, Yue Huang

要約

ディープQネットワーク（DQN）は、ディープラーニング（DL）と強化学習（RL）を統合することで、初めて深層強化学習（DRL）の扉を開いた。DQNは、学習過程において収集されたデータの分布が変化することに注目し、この性質が学習の不安定性を引き起こす可能性があると指摘した。そこで、この性質に起因する課題を効果的に対処する手法を提案した。しかし、本研究ではこの不都合な側面に注目するのではなく、教師あり学習（SL）がその達成できないように、強化学習（RL）において、推定されるデータ分布と真のデータ分布とのギャップを緩和することが極めて重要であると捉える。この新たな視点から、基本的なRL枠組みである一般化方策反復（Generalized Policy Iteration, GPI）をより一般化した枠組み、すなわち一般化データ分布反復（Generalized Data Distribution Iteration, GDI）へと拡張した。我々は、多数の強化学習アルゴリズムおよび技術がGDIの枠組みに統一可能であることを示し、それらはGDIの特殊なケースとして理解できると主張する。さらに、GDIがGPIよりも優れている理由について理論的証明を行い、その動作原理を明らかにした。実用的なGDIに基づく複数のアルゴリズムが提案され、その有効性と汎用性が実証された。実験結果は、アーケード学習環境（Arcade Learning Environment, ALE）において、本研究の手法が最先端（SOTA）の性能を達成することを示している。具体的には、わずか2億フレームの学習で、平均人間正規化スコア（HNS）9620.98％、中央値HNS 1146.39％、および22件の人類世界記録更新（HWRB）を達成した。本研究の目的は、強化学習の研究が人類の世界記録を破るという新たな旅路へと進むことを促し、性能と効率の両面で本物のスーパーヒューマンエージェントの実現を目指すことにある。