戦略が異なるということは、学習戦略とサンプリング戦略が異なることを意味します。まず、一定の確率分布の下で大量の行動データを生成し、次にそれらのデータから Off 最適戦略から逸脱する目標戦略を見つけます。
この解決策を採用するには、次の条件を満たす必要があります。 π がターゲット戦略、μ が行動戦略であると仮定すると、μ から π を学習するための条件は、 π ( a | s ) > 0 の場合、μ が存在する必要があることです。 ( a | s ) > 0 が成立します。
Q学習アルゴリズム
Q ラーニング アルゴリズムは、認識された報酬と罰に基づいて次のアクションを選択する方法を学習します。ここで、Q はポリシー π の品質関数を表します。この関数は、状態 s を観察した後、各状態アクションを (s, a と比較) することができます。アクション a. ) は、将来の期待される報酬の合計にマッピングされます。