2ヶ月前

RUDDER: 遅延報酬のリターン分解

Jose A. Arjona-Medina; Michael Gillhofer; Michael Widrich; Thomas Unterthiner; Johannes Brandstetter; Sepp Hochreiter

要約

私たちは、有限のマルコフ決定過程（MDPs）における遅延報酬問題を解決する新しい強化学習手法RUDDERを提案します。MDPsにおいて、Q値は期待される即時報酬と期待される将来の報酬の和に等しいです。後者の問題は、時間差学習（TD学習）におけるバイアス問題やモンテカルロ学習（MC学習）における高分散問題に関連しています。これらの問題は、報酬が遅延する場合にさらに深刻になります。RUDDERは、期待される将来の報酬をゼロにするを目指しており、これによりQ値推定が即時報酬の平均を計算することだけに簡素化されます。この目標を達成するために、以下の2つの新しい概念を提案します。(i) 報酬再配分：これにより、同じ最適方策を持つリターン等価な決定過程が生成され、最適な状態では期待される将来の報酬がゼロになります。(ii) 貢献分析によるリターン分解：これにより強化学習タスクが回帰タスクに変換され、深層学習が得意とする領域となります。人工的な遅延報酬タスクにおいて、RUDDERはMCよりも大幅に速く、モンテカルロ木探索（MCTS）、TD(λ)および報酬整形アプローチよりも指数関数的に速い結果を示しました。Atariゲームにおいても、RUDDERは近傍方策最適化（Proximal Policy Optimization, PPO）ベースライン上でのスコア改善に寄与し、特に遅延報酬のあるゲームでその効果が顕著です。ソースコードは\url{https://github.com/ml-jku/rudder}から入手可能であり、デモンストレーションビデオは\url{https://goo.gl/EQerZV}で視聴できます。