2ヶ月前

Quantile Regression を用いた Distributional Reinforcement Learning

Will Dabney; Mark Rowland; Marc G. Bellemare; Rémi Munos

要約

強化学習において、エージェントは環境と相互作用し、行動を取り、次の状態と報酬を観測します。これらの状態遷移、報酬、および行動が確率的にサンプリングされる場合、観測された長期的なリターンにランダム性が誘発されます。従来の強化学習アルゴリズムでは、このランダム性を平均化して価値関数を推定していました。本論文では、Bellemare, Dabney, and Munos (2017) の最近の研究に基づき、リターンの分布を明示的にモデル化するアプローチ（リターンの平均だけを推定するだけでなく）について考察します。つまり、価値関数ではなく価値分布の学習方法を探ります。まず、既存の結果を近似分布設定に拡張します。次に、我々の理論的枠組みと一貫した新しい分布型強化学習アルゴリズムを提示します。最後に、この新しいアルゴリズムをAtari 2600ゲームで評価し、DQNの最近の改良点（C51などの関連する分布型アルゴリズムも含む）よりも大幅に性能が向上していることを確認しました。