2ヶ月前
平均行動評価法(Mean Actor Critic)
Cameron Allen; Kavosh Asadi; Melrose Roderick; Abdel-rahman Mohamed; George Konidaris; Michael Littman

要約
私たちは離散アクション連続状態強化学習のための新しいアルゴリズム、Mean Actor-Critic (MAC) を提案します。MACは、ポリシー勾配アルゴリズムであり、実際に行われたアクションだけでなく、エージェントが明示的に表現するすべてのアクション値を使用してポリシーの勾配を推定します。このアプローチが従来のActor-Critic手法に比べてポリシー勾配推定の分散を減らすことを証明しています。2つの制御ドメインと6つのAtariゲームにおける経験的な結果を示し、MACが最先端のポリシーサーチアルゴリズムと競争力があることを確認しました。