Search for a command to run...
日付
行動判断アルゴリズム Actor-Critic Algorithm は、ポリシー ネットワークと値関数を組み合わせて、結果の報酬と罰の情報を通じて、さまざまな状態でさまざまなアクションが実行される確率を計算する強化学習アルゴリズムです。AC アルゴリズムとも呼ばれます。
行動判定アルゴリズムは2つのニューラルネットワークを設計し、毎回連続状態でパラメータを更新し、各パラメータ更新の前後に相関関係があり、従来のポリシーネットワークと比較して学習効率とパフォーマンスが優れていますが、学習が容易です。バイアスが生じるため、局所的な最適解しか生成できません。
アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。