HyperAIHyperAI

Command Palette

Search for a command to run...

分布型強化学習における完全パラメータ化された分位数関数

Derek Yang Li Zhao Zichuan Lin Tao Qin Jiang Bian Tieyan Liu

概要

分布型強化学習(Distributional Reinforcement Learning, RL)は、従来のRLが累積報酬の期待値を扱うのに対し、報酬の分布そのものを推定する点で異なり、アタリゲームにおいて最先端の性能を達成している。実用的な分布型RLアルゴリズムにおける主な課題は、真の連続分布をより良好に近似できるように、推定される分布のパラメータ化方法をどう設計するかにある。既存の分布型RLアルゴリズムは、分布関数の確率側または報酬値側のいずれか一方をパラメータ化しており、他方はC51やQR-DQNのように均一に固定され、あるいはIQNのようにランダムにサンプリングされる。本論文では、分布型RLに対して、分位数関数の両側を完全にパラメータ化する手法を提案する。具体的には、分位数の分数軸(すなわちx軸)と値軸(すなわちy軸)の両方をパラメータ化する。本手法は、分位数分数を生成する「分数提案ネットワーク」と、対応する分位数値を出力する「分位数値ネットワーク」から構成され、これら2つのネットワークを共同で学習させることで、真の分布の最良の近似を探索する。55種類のアタリゲームにおける実験結果から、本アルゴリズムが既存の分布型RLアルゴリズムを顕著に上回り、分散型エージェントを用いない環境においても、アタリ学習環境における新たな記録を樹立したことが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています