2ヶ月前

カウントベースの探索とニューラル密度モデル

Georg Ostrovski; Marc G. Bellemare; Aaron van den Oord; Remi Munos
カウントベースの探索とニューラル密度モデル
要約

ベルマールら(2016)は、密度モデルから導き出される疑似カウントの概念を導入し、非表形式強化学習におけるカウントベースの探査を一般化しました。この疑似カウントはDQNエージェントの探査ボーナス生成に使用され、混合モンテカルロ更新と組み合わせることでアタリ2600ゲーム「モンテズーマの復讐」において最先端の成果を達成しました。彼らの研究で残された2つの問いについて考察します。第一に、密度モデルの品質が探査においてどの程度重要であるか。第二に、モンテカルロ更新が探査においてどのような役割を果たすか。第一の問いについては、画像用の先進的なニューラル密度モデルであるPixelCNNを使用して疑似カウントを供給することにより回答します。特に、モデルに関する前提が満たされない場合にベルマールらの手法を適応する際の内在的な困難性について検討します。その結果、特別な装置を必要としないより実用的かつ一般的なアルゴリズムが得られました。私たちは異なるエージェントアーキテクチャとPixelCNNによる疑似カウントを組み合わせることで、いくつかの難しいアタリゲームにおける最先端の成果を大幅に向上させました。驚くべき発見の一つは、混合モンテカルロ更新が最も疎な設定でも探査を強力に促進するという点です。「モンテズーマの復讐」もその例に含まれます。

カウントベースの探索とニューラル密度モデル | 最新論文 | HyperAI超神経