Q-LearningQ-Learning
Q-Learning (Q-Learning) は、エージェントの現在の状態を考慮して最適な行動方針を見つける、モデルフリーのオフポリシー強化学習アルゴリズムです。環境内でのエージェントの位置に基づいて、次に実行するアクションが決定されます。 「Q」は、アルゴリズムによって計算される関数、つまり特定の状態でアクションを実行することで期待される報酬を指します。
Q ラーニングの目的は、現在の状態に基づいて最適な行動方針を見つけることです。これを行うために、独自のルールを設定したり、規定されたポリシーの範囲外で運用したりする場合があります。これは、ポリシーが実際には必要ないことを意味するため、「オフポリシー」という名前が付けられています。任意の有限マルコフ決定プロセスについて、Q 学習は、現在の状態から始まるすべての連続ステップで総報酬の期待値を最大化する最適なポリシーを見つけます。 Q 学習は、無限の探索時間と部分的に確率的なポリシーが与えられた場合に、任意の有限マルコフ決定プロセスに対して最適なアクション選択ポリシーを特定できます。
Q ラーニングの例としては、広告推奨システムがあります。通常の広告推奨システムでは、視聴者が受け取る広告は、視聴者が以前に購入したことや、訪問した可能性のある Web サイトに基づいています。視聴者がテレビを購入すると、さまざまなブランドのテレビに関する推奨情報が表示されます。
Q-Learning の重要な用語
- 状態: 状態 S (状態) は、環境内のエージェントの現在の位置を表します。
- アクション: アクション A (アクション) は、エージェントが特定の状態にあるときに実行されるステップです。
- 報酬: アクションごとに、エージェントは正または負の報酬を受け取ります。
- シナリオ: エージェントが終了状態になり、新しいアクションを実行できない場合。
- Q値: 特定の状態Sで実行されたアクションAがどの程度良いか悪いかを判断するために使用されます。 Q(A,S)と表記します。
- 時間差: 現在の状態とアクション、および前の状態とアクションの値を使用して Q 値を求める式。