HyperAIHyperAI

Command Palette

Search for a command to run...

アクター・クリティック手法における関数近似誤差の解消

Scott Fujimoto Herke van Hoof David Meger

概要

価値に基づく強化学習手法、特にディープQ学習において、関数近似の誤差が過大評価された価値推定と非最適な方策を引き起こすことが知られています。本研究では、この問題がアクターキリッター設定でも持続することを示し、その影響をアクターとキリッター双方に最小限に抑えるための新たなメカニズムを提案します。我々のアルゴリズムは、2つの評価者の間で最小値を選択することで過大評価を制限するダブルQ学習(Double Q-learning)に基づいています。また、目標ネットワークと過大評価バイアスとの関連性について考察し、各更新時の誤差を減らし性能向上につなげるために方策更新の遅延を提案します。我々はOpenAIジムのタスク群で方法を評価し、テストしたすべての環境で最先端の手法を上回る結果を得ました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
アクター・クリティック手法における関数近似誤差の解消 | 記事 | HyperAI超神経