行動判断アルゴリズム Actor-Critic Algorithm は、ポリシー ネットワークと値関数を組み合わせて、結果の報酬と罰の情報を通じて、さまざまな状態でさまざまなアクションが実行される確率を計算する強化学習アルゴリズムです。AC アルゴリズムとも呼ばれます。
行動判定アルゴリズムは2つのニューラルネットワークを設計し、毎回連続状態でパラメータを更新し、各パラメータ更新の前後に相関関係があり、従来のポリシーネットワークと比較して学習効率とパフォーマンスが優れていますが、学習が容易です。バイアスが生じるため、局所的な最適解しか生成できません。
ACアルゴリズムの利点
- より良い収束
- 高次元で連続的なアクション空間がより効果的に機能します
- 確率的戦略が使用可能
ACアルゴリズムの欠点
- 通常は局所的な最適解が得られます
- 評価戦略は効率が低く、バイアスが大きい