オフポリシー
さまざまな戦略これは、新しいサンプルを生成するための戦略が、ネットワークがパラメーターを更新するときに使用される戦略とは異なることを意味します。典型的な例は Q 学習アルゴリズムです。
異なる戦略思考
戦略が異なるということは、学習戦略とサンプリング戦略が異なることを意味します。まず、一定の確率分布の下で大量の行動データを生成し、次にそれらのデータから Off 最適戦略から逸脱する目標戦略を見つけます。
この解決策を採用するには、次の条件を満たす必要があります。 π がターゲット戦略、μ が行動戦略であると仮定すると、μ から π を学習するための条件は、 π ( a | s ) > 0 の場合、μ が存在する必要があることです。 ( a | s ) > 0 が成立します。
Q学習アルゴリズム
Q ラーニング アルゴリズムは、認識された報酬と罰に基づいて次のアクションを選択する方法を学習します。ここで、Q はポリシー π の品質関数を表します。この関数は、状態 s を観察した後、各状態アクションを (s, a と比較) することができます。アクション a. ) は、将来の期待される報酬の合計にマッピングされます。
Q ラーニング アルゴリズムはモデルフリー タイプに属します。これは、MDP の動的知識をモデル化せず、各状態のさまざまなアクションの Q 値を直接推定し、各状態で最も高い Q 値を持つアクションを選択することを意味します。各状態を選択し、対応する戦略を選択します。
コンピューターがすべての状態アクションにアクセスし続けると、Q 学習アルゴリズムは最適な Q 関数に収束します。
さまざまな戦略的利点
- 人間から与えられた指導サンプルや他のエージェントから与えられた指導サンプルに基づいて学習できます。
- 古い戦略から得られた経験を活用できます。
- 探索的戦略を使用しながら決定論的戦略を学習することは可能です。
- 1 つのポリシーでサンプリングし、複数のポリシーを同時に学習することができます。