2ヶ月前

分布強化学習のためのインプリシット分位数ネットワーク

Will Dabney; Georg Ostrovski; David Silver; Rémi Munos
分布強化学習のためのインプリシット分位数ネットワーク
要約

本研究では、最近の分布強化学習の進展を基に、一般的に適用可能で柔軟性があり、最先端のDQNの分布変種を開発しました。これにより、状態-行動リターン分布の完全な分位数関数を近似するために分位数回帰を使用しています。サンプル空間上の分布を再パラメータ化することで、暗黙的に定義されたリターン分布が得られ、リスク感応型ポリシーの大クラスが生成されます。我々はALE(Atari Learning Environment)の57つのAtari 2600ゲームにおいて性能向上を示し、アルゴリズムによって暗黙的に定義された分布を利用して、Atariゲームにおけるリスク感応型ポリシーの効果を調査しました。