2ヶ月前

状況認識型探索強化学習

Jongwook Choi; Yijie Guo; Marcin Moczulski; Junhyuk Oh; Neal Wu; Mohammad Norouzi; Honglak Lee
状況認識型探索強化学習
要約

本論文では、環境の偶発性認識と制御可能な側面を学習することで強化学習における探索が改善されるかどうかを調査しています。この問いを検証するために、アーケード学習要素(Arcade Learning Environment: ALE)上で仮説の具体例を評価しました。本研究では、観測値から制御可能な要素を見つける注意動態モデル(Attentive Dynamics Model: ADM)を開発しました。これらの要素は、多くの場合、Atariゲームでのキャラクターの位置と関連しています。ADMは自己監督学習によってエージェントが取る行動を予測するように訓練されます。学習された偶発性情報は、探索目的のために状態表現の一環として使用されます。我々は、アクターキリッタアルゴリズムとカウントベースの探索手法を組み合わせることで、報酬が非常に少ないことで知られる一連のAtariゲームにおいて優れた結果を得られることを示しています。例えば、Montezuma's Revengeにおいては専門家のデモンストレーションや明示的な高レベル情報(RAM状態など)、監督データを使用せずに11,000点を超える最先端のスコアを達成しました。実験結果は、偶発性認識が強化学習における探索問題解決に極めて有力な概念であることを確認しており、さらなる研究への興味深い問いを開いています。