2ヶ月前

アクター・クリティック手法における関数近似誤差の解消

Scott Fujimoto; Herke van Hoof; David Meger
アクター・クリティック手法における関数近似誤差の解消
要約

価値に基づく強化学習手法、特にディープQ学習において、関数近似の誤差が過大評価された価値推定と非最適な方策を引き起こすことが知られています。本研究では、この問題がアクターキリッター設定でも持続することを示し、その影響をアクターとキリッター双方に最小限に抑えるための新たなメカニズムを提案します。我々のアルゴリズムは、2つの評価者の間で最小値を選択することで過大評価を制限するダブルQ学習(Double Q-learning)に基づいています。また、目標ネットワークと過大評価バイアスとの関連性について考察し、各更新時の誤差を減らし性能向上につなげるために方策更新の遅延を提案します。我々はOpenAIジムのタスク群で方法を評価し、テストしたすべての環境で最先端の手法を上回る結果を得ました。

アクター・クリティック手法における関数近似誤差の解消 | 最新論文 | HyperAI超神経