HyperAIHyperAI

Command Palette

Search for a command to run...

特徴空間におけるカウントベースの探査に関する強化学習

Jarryd Martin; Suraj Narayanan Sasikumar; Tom Everitt; Marcus Hutter

概要

高次元状態行動空間を持つ環境で実現可能な新しいカウントベースの楽観的探索アルゴリズムを紹介します。これらの領域における強化学習(Reinforcement Learning: RL)アルゴリズムの成功は、限られた学習経験から一般化する能力に大きく依存しています。関数近似技術により、RLエージェントは未訪問の状態の価値を推定するために一般化できますが、現在では不確実性に関する一般化を可能にする手法が少ないため、スケーラブルなRLアルゴリズムとエージェントが不確実性を減らすために効率的な探索戦略を組み合わせることが妨げられてきました。本稿では、一般的な状態訪問回数を計算する新しい方法を提案します。これにより、エージェントは任意の状態に関連する不確実性を推定することが可能になります。当該ϕ疑似カウントは、価値関数近似に使用される同じ特徴表現を利用して一般化を達成します。頻繁に観測されない特徴を持つ状態はより不確実とみなされます。ϕ-探索ボーナスアルゴリズムは、変換前の状態空間ではなく特徴空間での探索に対してエージェントに報酬を与えます。この手法は以前の提案よりも単純で計算コストが低く、高次元RLベンチマークにおいて最新の結果に近い性能を達成しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています