2ヶ月前

カウントベースの探検と内在的動機付けの統一

Marc G. Bellemare; Sriram Srinivasan; Georg Ostrovski; Tom Schaul; David Saxton; Remi Munos
カウントベースの探検と内在的動機付けの統一
要約

環境に対するエージェントの不確実性と、この不確実性を観測間で一般化する問題について考察します。特に、非表形式強化学習における探索の問題に焦点を当てます。内在動機付けに関する文献から着想を得て、密度モデルを使用して不確実性を測定し、任意の密度モデルから疑似カウントを導出する新しいアルゴリズムを提案します。この手法により、カウントベースの探索アルゴリズムを非表形式の場合に一般化することが可能になります。当該アイデアをAtari 2600ゲームに適用し、生ピクセルから合理的な疑似カウントを提供します。これらの疑似カウントを内在報酬に変換することで、Montezuma's Revenge(モンテズーマリベンジ)など数々の難易度の高いゲームにおいて大幅に探索性能が向上しました。