HyperAIHyperAI

Command Palette

Search for a command to run...

Quantile Regression を用いた Distributional Reinforcement Learning

Will Dabney; Mark Rowland; Marc G. Bellemare; Rémi Munos

概要

強化学習において、エージェントは環境と相互作用し、行動を取り、次の状態と報酬を観測します。これらの状態遷移、報酬、および行動が確率的にサンプリングされる場合、観測された長期的なリターンにランダム性が誘発されます。従来の強化学習アルゴリズムでは、このランダム性を平均化して価値関数を推定していました。本論文では、Bellemare, Dabney, and Munos (2017) の最近の研究に基づき、リターンの分布を明示的にモデル化するアプローチ(リターンの平均だけを推定するだけでなく)について考察します。つまり、価値関数ではなく価値分布の学習方法を探ります。まず、既存の結果を近似分布設定に拡張します。次に、我々の理論的枠組みと一貫した新しい分布型強化学習アルゴリズムを提示します。最後に、この新しいアルゴリズムをAtari 2600ゲームで評価し、DQNの最近の改良点(C51などの関連する分布型アルゴリズムも含む)よりも大幅に性能が向上していることを確認しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Quantile Regression を用いた Distributional Reinforcement Learning | 記事 | HyperAI超神経