Q-Learning
Q-Learning ist ein modellfreier, Off-Policy-Reinforcement-Learning-Algorithmus, der die beste Vorgehensweise im aktuellen Zustand eines Agenten findet.Je nachdem, wo sich der Agent in der Umgebung befindet, wird entschieden, welche Aktion als Nächstes ausgeführt wird. „Q“ bezieht sich auf die vom Algorithmus berechnete Funktion – die erwartete Belohnung für eine in einem bestimmten Zustand ausgeführte Aktion.
Das Ziel von Q-Learning besteht darin, angesichts des aktuellen Zustands die beste Vorgehensweise zu finden. Zu diesem Zweck kann es eigene Regeln erstellen oder außerhalb der vorgeschriebenen Richtlinien agieren.Dies bedeutet, dass eigentlich keine Richtlinie erforderlich ist, daher der Name „Off-Policy“.Für jeden endlichen Markow-Entscheidungsprozess findet Q-Learning eine optimale Strategie, die den erwarteten Wert der Gesamtbelohnung in allen aufeinanderfolgenden Schritten, ausgehend vom aktuellen Zustand, maximiert. Q-Learning kann bei unendlicher Explorationszeit und einer teilweise randomisierten Strategie die beste Strategie zur Aktionsauswahl für jeden gegebenen endlichen Markov-Entscheidungsprozess ermitteln.
Ein Beispiel für Q-Learning ist ein Werbeempfehlungssystem. In einem normalen Anzeigen-Empfehlungssystem basieren die Anzeigen, die ein Zuschauer erhält, auf den vorherigen Käufen des Zuschauers oder den Websites, die er möglicherweise besucht hat. Wenn der Zuschauer einen Fernseher kauft, erhält er Empfehlungen für verschiedene Fernsehmarken.
Wichtige Begriffe im Q-Learning
- Zustände: Zustände S (States) stellen die aktuelle Position des Agenten in der Umgebung dar.
- Aktion: Eine Aktion ist ein Schritt, den ein Agent ausführt, wenn er sich in einem bestimmten Zustand befindet.
- Belohnung: Für jede Aktion erhält der Agent eine positive oder negative Belohnung.
- Handlung: Wenn der Agent in einem Endzustand endet und keine neuen Aktionen ausführen kann.
- Q-Wert: Er wird verwendet, um zu bestimmen, wie gut eine Aktion A ist, wenn sie in einem bestimmten Zustand S ausgeführt wird. Ausgedrückt als Q (A, S).
- Zeitliche Differenz: Eine Formel zum Ermitteln des Q-Werts unter Verwendung des aktuellen Zustands und der aktuellen Aktion sowie der Werte des vorherigen Zustands und der vorherigen Aktion.