17日前

任意ステップダイナミクスモデルは、オンラインおよびオフライン強化学習における未来予測を改善する

Haoxin Lin, Yu-Yan Xu, Yihao Sun, Zhilong Zhang, Yi-Chen Li, Chengxing Jia, Junyin Ye, Jiaji Zhang, Yang Yu
任意ステップダイナミクスモデルは、オンラインおよびオフライン強化学習における未来予測を改善する
要約

強化学習におけるモデルベース手法は、ダイナミクスモデル内でのポリシー探索を促進することで、データ効率の向上に有望なアプローチを提供する。しかし、現在の状態の予測結果に基づいて次の状態を予測するブートストラップ予測の特性により、ダイナミクスモデルにおける連続的なステップ予測は依然として困難である。このブートストラップ構造は、予測の積み重ねにより誤差が累積する問題を引き起こす。本論文では、ブートストラップ予測を直接予測に削減することで、誤差の累積を抑制する「任意ステップダイナミクスモデル(Any-step Dynamics Model, ADM)」を提案する。ADMは、繰り返しのブートストラップを必要とせず、変動する長さの計画(プラン)を入力として、将来の状態を予測可能にする。さらに、オンラインとオフラインのモデルベースフレームワークにそれぞれ適用可能な2つのアルゴリズム、ADMPO-ONおよびADMPO-OFFを設計した。オンライン設定においては、ADMPO-ONは従来の最先端手法と比較して、より高いサンプル効率を示した。一方、オフライン設定では、ADMPO-OFFは最近の最先端オフライン手法と比較して優れた性能を発揮するとともに、単一のADMを用いるだけで、モデルの不確実性をより良好に定量化できるという利点を持つ。