17日前

分布型強化学習における完全パラメータ化された分位数関数

Derek Yang, Li Zhao, Zichuan Lin, Tao Qin, Jiang Bian, Tieyan Liu

要約

分布型強化学習（Distributional Reinforcement Learning, RL）は、従来のRLが累積報酬の期待値を扱うのに対し、報酬の分布そのものを推定する点で異なり、アタリゲームにおいて最先端の性能を達成している。実用的な分布型RLアルゴリズムにおける主な課題は、真の連続分布をより良好に近似できるように、推定される分布のパラメータ化方法をどう設計するかにある。既存の分布型RLアルゴリズムは、分布関数の確率側または報酬値側のいずれか一方をパラメータ化しており、他方はC51やQR-DQNのように均一に固定され、あるいはIQNのようにランダムにサンプリングされる。本論文では、分布型RLに対して、分位数関数の両側を完全にパラメータ化する手法を提案する。具体的には、分位数の分数軸（すなわちx軸）と値軸（すなわちy軸）の両方をパラメータ化する。本手法は、分位数分数を生成する「分数提案ネットワーク」と、対応する分位数値を出力する「分位数値ネットワーク」から構成され、これら2つのネットワークを共同で学習させることで、真の分布の最良の近似を探索する。55種類のアタリゲームにおける実験結果から、本アルゴリズムが既存の分布型RLアルゴリズムを顕著に上回り、分散型エージェントを用いない環境においても、アタリ学習環境における新たな記録を樹立したことが示された。