11日前

モデルベースのオフライン強化学習:懐疑的動的信念を用いた手法

Kaiyang Guo, Yunfeng Shao, Yanhui Geng
モデルベースのオフライン強化学習:懐疑的動的信念を用いた手法
要約

モデルベースのオフライン強化学習(RL)は、事前に収集された静的データセットとダイナミクスモデルを活用することで、高い報酬をもたらす方策(ポリシー)の探索を目指す。静的データセットを再利用して学習されたダイナミクスモデルは、適切に活用されれば、その一般化能力が方策学習を促進すると期待される。この目的のため、いくつかの研究では予測されたダイナミクスの不確実性を定量化し、報酬にペナルティを課す手法が提案されている。しかし、マルコフ決定過程(MDP)の文脈において、ダイナミクスと報酬は本質的に異なる要因であるため、報酬ペナルティを通じてダイナミクスの不確実性を表現することは、モデルの活用とリスク回避の間に予期しないトレードオフをもたらす可能性がある。本研究では、代わりにダイナミクスに対する信念分布(belief distribution)を維持し、この信念からのバイアス付きサンプリングを通じて方策を評価・最適化するアプローチを提案する。このサンプリング手続きは、オフラインRLを交互マルコフゲーム(alternating Markov game)の枠組みとして定式化し、その中で楽観的でない(pessimistic)方向にバイアスをかける形で導出される。形式的に、このバイアス付きサンプリングが、方策に依存する再重み付け因子を伴った更新されたダイナミクス信念を自然に導くことを示す。これをもとに、ある条件下で単調な改善が保証される正則化された反復的ポリシー最適化アルゴリズムを設計した。実用化の観点から、この解を近似的に得るためのオフラインRLアルゴリズムも提案した。実験結果から、提案手法が広範なベンチマークタスクにおいて、最先端の性能を達成することが確認された。

モデルベースのオフライン強化学習:懐疑的動的信念を用いた手法 | 最新論文 | HyperAI超神経