2ヶ月前

特徴空間におけるカウントベースの探査に関する強化学習

Jarryd Martin; Suraj Narayanan Sasikumar; Tom Everitt; Marcus Hutter

要約

高次元状態行動空間を持つ環境で実現可能な新しいカウントベースの楽観的探索アルゴリズムを紹介します。これらの領域における強化学習（Reinforcement Learning: RL）アルゴリズムの成功は、限られた学習経験から一般化する能力に大きく依存しています。関数近似技術により、RLエージェントは未訪問の状態の価値を推定するために一般化できますが、現在では不確実性に関する一般化を可能にする手法が少ないため、スケーラブルなRLアルゴリズムとエージェントが不確実性を減らすために効率的な探索戦略を組み合わせることが妨げられてきました。本稿では、一般的な状態訪問回数を計算する新しい方法を提案します。これにより、エージェントは任意の状態に関連する不確実性を推定することが可能になります。当該ϕ疑似カウントは、価値関数近似に使用される同じ特徴表現を利用して一般化を達成します。頻繁に観測されない特徴を持つ状態はより不確実とみなされます。ϕ-探索ボーナスアルゴリズムは、変換前の状態空間ではなく特徴空間での探索に対してエージェントに報酬を与えます。この手法は以前の提案よりも単純で計算コストが低く、高次元RLベンチマークにおいて最新の結果に近い性能を達成しています。