HyperAIHyperAI

Command Palette

Search for a command to run...

カウントベースの探検と内在的動機付けの統一

Marc G. Bellemare; Sriram Srinivasan; Georg Ostrovski; Tom Schaul; David Saxton; Remi Munos

概要

環境に対するエージェントの不確実性と、この不確実性を観測間で一般化する問題について考察します。特に、非表形式強化学習における探索の問題に焦点を当てます。内在動機付けに関する文献から着想を得て、密度モデルを使用して不確実性を測定し、任意の密度モデルから疑似カウントを導出する新しいアルゴリズムを提案します。この手法により、カウントベースの探索アルゴリズムを非表形式の場合に一般化することが可能になります。当該アイデアをAtari 2600ゲームに適用し、生ピクセルから合理的な疑似カウントを提供します。これらの疑似カウントを内在報酬に変換することで、Montezuma's Revenge(モンテズーマリベンジ)など数々の難易度の高いゲームにおいて大幅に探索性能が向上しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています