HyperAI
Command Palette
Search for a command to run...
行動批評家アルゴリズム 行為者批評家アルゴリズム
日付
7年前
Search for a command to run...
日付
アクタークリティック アルゴリズム (AC) は、ポリシー ネットワークと価値関数を組み合わせて、結果の報酬と罰の情報に基づいて、さまざまな状態でさまざまなアクションが実行される確率を計算する強化学習アルゴリズムです。
行動判定アルゴリズムは2つのニューラルネットワークを設計し、毎回連続状態でパラメータを更新し、各パラメータ更新の前後に相関関係があり、従来のポリシーネットワークと比較して学習効率とパフォーマンスが優れていますが、学習が容易です。バイアスが生じるため、局所的な最適解しか生成できません。
Search for a command to run...
日付
アクタークリティック アルゴリズム (AC) は、ポリシー ネットワークと価値関数を組み合わせて、結果の報酬と罰の情報に基づいて、さまざまな状態でさまざまなアクションが実行される確率を計算する強化学習アルゴリズムです。
行動判定アルゴリズムは2つのニューラルネットワークを設計し、毎回連続状態でパラメータを更新し、各パラメータ更新の前後に相関関係があり、従来のポリシーネットワークと比較して学習効率とパフォーマンスが優れていますが、学習が容易です。バイアスが生じるため、局所的な最適解しか生成できません。