HyperAIHyperAI

Command Palette

Search for a command to run...

最大エントロピー強化学習におけるエネルギーに基づく正規化フロー

Chen-Hao Chao∗1,2 Chien Feng∗1 Wei-Fang Sun2 Cheng-Kuang Lee2 Simon See2 Chun-Yi Lee†1

概要

既存の連続アクション空間向け最大エントロピー(MaxEnt)強化学習(RL)手法は、通常、アクター・クリティックフレームワークに基づいて定式化され、ポリシー評価とポリシー改善の交互ステップによって最適化されます。ポリシー評価ステップでは、クリティックがソフトQ関数を捉えるように更新されます。ポリシー改善ステップでは、アクターが更新されたソフトQ関数に従って調整されます。本論文では、エネルギーベースの正規化フロー(EBFlow)を使用してモデル化された新しいMaxEnt RLフレームワークを提案します。このフレームワークは、ポリシー評価ステップとポリシー改善ステップを統合し、単一の目的関数による学習プロセスを実現します。当手法により、モンテカルロ近似なしでポリシー評価目標に使用されるソフト値関数の計算が可能となります。さらに、この設計は多峰性アクション分布のモデリングをサポートしながら効率的なアクションサンプリングを容易にします。当手法の性能を評価するために、MuJoCoベンチマークスイートおよびOmniverse Isaac Gymでシミュレーションされた高次元ロボットタスクにおいて実験を行いました。評価結果は、当手法が広く採用されている代表的な基準モデルと比較して優れた性能を達成していることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
最大エントロピー強化学習におけるエネルギーに基づく正規化フロー | 記事 | HyperAI超神経