2ヶ月前
最大エントロピー強化学習におけるエネルギーに基づく正規化フロー
Chen-Hao Chao; Chien Feng; Wei-Fang Sun; Cheng-Kuang Lee; Simon See; Chun-Yi Lee

要約
既存の連続アクション空間向け最大エントロピー(MaxEnt)強化学習(RL)手法は、通常、アクター・クリティックフレームワークに基づいて定式化され、ポリシー評価とポリシー改善の交互ステップによって最適化されます。ポリシー評価ステップでは、クリティックがソフトQ関数を捉えるように更新されます。ポリシー改善ステップでは、アクターが更新されたソフトQ関数に従って調整されます。本論文では、エネルギーベースの正規化フロー(EBFlow)を使用してモデル化された新しいMaxEnt RLフレームワークを提案します。このフレームワークは、ポリシー評価ステップとポリシー改善ステップを統合し、単一の目的関数による学習プロセスを実現します。当手法により、モンテカルロ近似なしでポリシー評価目標に使用されるソフト値関数の計算が可能となります。さらに、この設計は多峰性アクション分布のモデリングをサポートしながら効率的なアクションサンプリングを容易にします。当手法の性能を評価するために、MuJoCoベンチマークスイートおよびOmniverse Isaac Gymでシミュレーションされた高次元ロボットタスクにおいて実験を行いました。評価結果は、当手法が広く採用されている代表的な基準モデルと比較して優れた性能を達成していることを示しています。