HyperAIHyperAI

Command Palette

Search for a command to run...

分布強化学習のためのインプリシット分位数ネットワーク

Will Dabney Georg Ostrovski David Silver Rémi Munos

概要

本研究では、最近の分布強化学習の進展を基に、一般的に適用可能で柔軟性があり、最先端のDQNの分布変種を開発しました。これにより、状態-行動リターン分布の完全な分位数関数を近似するために分位数回帰を使用しています。サンプル空間上の分布を再パラメータ化することで、暗黙的に定義されたリターン分布が得られ、リスク感応型ポリシーの大クラスが生成されます。我々はALE(Atari Learning Environment)の57つのAtari 2600ゲームにおいて性能向上を示し、アルゴリズムによって暗黙的に定義された分布を利用して、Atariゲームにおけるリスク感応型ポリシーの効果を調査しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています