HyperAI
Command Palette
Search for a command to run...
平均行動評価法(Mean Actor Critic)
平均行動評価法(Mean Actor Critic)
Cameron Allen extsuperscript1 extsuperscript* Kavosh Asadi extsuperscript1 extsuperscript* Melrose Roderick extsuperscript1 Abdel-rahman Mohamed extsuperscript2 extsuperscript† George Konidaris extsuperscript1 Michael Littman extsuperscript1
概要
私たちは離散アクション連続状態強化学習のための新しいアルゴリズム、Mean Actor-Critic (MAC) を提案します。MACは、ポリシー勾配アルゴリズムであり、実際に行われたアクションだけでなく、エージェントが明示的に表現するすべてのアクション値を使用してポリシーの勾配を推定します。このアプローチが従来のActor-Critic手法に比べてポリシー勾配推定の分散を減らすことを証明しています。2つの制御ドメインと6つのAtariゲームにおける経験的な結果を示し、MACが最先端のポリシーサーチアルゴリズムと競争力があることを確認しました。