2ヶ月前

ソフトアクターキリティック:確率的アクターを用いたオフポリシー最大エントロピー深層強化学習

Tuomas Haarnoja; Aurick Zhou; Pieter Abbeel; Sergey Levine
ソフトアクターキリティック:確率的アクターを用いたオフポリシー最大エントロピー深層強化学習
要約

モデルフリーの深層強化学習(Deep Reinforcement Learning, DRL)アルゴリズムは、一連の困難な意思決定および制御タスクにおいてその有効性を示しています。しかし、これらの手法は通常、非常に高いサンプル複雑性と不安定な収束特性という2つの主要な課題に直面しており、これにより慎重なハイパーパラメータ調整が求められます。これらの課題は、複雑な実世界のドメインへの適用を大幅に制限しています。本論文では、最大エントロピー強化学習フレームワークに基づくオフポリシーのアクター・クリティックDRLアルゴリズムであるソフトアクター・クリティック(Soft Actor-Critic, SAC)を提案します。このフレームワークでは、アクターは期待報酬を最大化するだけでなく、エントロピーも最大化することを目指します。つまり、タスクを成功させる一方で可能な限りランダムに行動することです。このフレームワークに基づく以前のDRL手法はQ学習法として定式化されていました。我々の手法は、オフポリシー更新と安定した確率的なアクター・クリティック定式化を組み合わせることで、一連の連続制御ベンチマークタスクにおいて最先端の性能を達成し、従来のオンポリシーメソッドやオフポリシーメソッドを上回っています。さらに、他のオフポリシーアルゴリズムとは対照的に、我々のアプローチは非常に安定しており、異なる乱数シードを使用しても非常に類似した性能を達成することが示されています。