2ヶ月前

強化学習の分布的観点

Marc G. Bellemare; Will Dabney; Rémi Munos
強化学習の分布的観点
要約

本論文では、強化学習エージェントが受ける確率的なリターンの分布、すなわち価値分布の基本的重要性を主張する。これは、通常の強化学習アプローチがこのリターンの期待値、または価値をモデル化することとは対照的である。価値分布に関する研究は既に確立されているが、これまでそれはリスク認識行動の実装などの特定の目的にのみ使用されてきた。まず、ポリシー評価と制御設定における理論的結果から始め、後者において有意な分布不安定性があることを明らかにする。次に、分布的視点を利用して、ベルマン方程式を近似価値分布の学習に適用する新しいアルゴリズムを設計する。当該アルゴリズムをアーケード学習環境(Arcade Learning Environment)のゲームスイートを使用して評価したところ、最先端の結果と価値分布が近似強化学習において重要な役割を果たすことを示す逸話的な証拠を得た。最後に、理論的および経験的証拠を組み合わせて、近似設定における学習にどのように価値分布が影響を与えるかを強調する。

強化学習の分布的観点 | 最新論文 | HyperAI超神経