
要約
本稿では、強化学習(Reinforcement Learning: RL)における探索のための単純なアプローチを紹介します。このアプローチは、テーブル形式の場合において理論的に正当化されたアルゴリズムを開発することを可能にするとともに、関数近似が必要な設定にも拡張可能です。当該アプローチは、元々後続状態の類似性によって状態の一般化を定義するために導入された後続表現(Successor Representation: SR)に基づいています。本稿では、SRのノルムが学習中に報酬ボーナスとして使用され、探索を奨励する手段となることを示します。SRのノルムの一時的な挙動をよりよく理解するために、部分確率的後続表現(Substochastic Successor Representation: SSR)を導入し、それが各状態(または特徴量)が観測された回数を暗黙的にカウントすることを示します。この結果を利用して、サンプル効率性に優れたいくつかの理論的なアプローチと同等の性能を持つアルゴリズムを開発しました。最後に、これらのアイデアをディープRLアルゴリズムに拡張し、低サンプル複雑度体制下でAtari 2600ゲームにおいて最先端の性能を達成したことを示します。