HyperAI

Aus-Richtlinie

Verschiedene StrategienDies bedeutet, dass sich die Strategie zum Generieren neuer Samples von der Strategie unterscheidet, die beim Aktualisieren der Netzwerkparameter verwendet wird. Ein typisches Beispiel ist der Q-Learning-Algorithmus.

Anderes Strategiedenken

Unterschiedliche Strategien bedeuten, dass sich die erlernte Strategie von der abgetasteten Strategie unterscheidet. Dabei wird zunächst eine große Menge an Verhaltensdaten unter einer bestimmten Wahrscheinlichkeitsverteilung generiert und dann aus diesen Daten die Zielstrategie ermittelt, die von der nicht optimalen Strategie abweicht.

Für die Annahme dieses Plans müssen die folgenden Bedingungen erfüllt sein: Angenommen, π ist die Zielstrategie und μ die Verhaltensstrategie, dann ist die Bedingung für das Lernen von μ nach π, dass, wenn π (a | s) > 0, µ (a | s) > 0 gelten muss.

Q-Learning-Algorithmus

Der Q-Learning-Algorithmus lernt, wie die nächste Aktion basierend auf wahrgenommenen Belohnungen und Strafen ausgewählt wird, wobei Q die Qualitätsfunktion der Richtlinie π darstellt, die jedes Zustands-Aktions-Paar (s, a) nach Beobachtung des Zustands s und Bestimmung der Aktion a auf die gesamte erwartete zukünftige Belohnung abbildet.

Der Q-Learning-Algorithmus ist modellfrei, was bedeutet, dass er nicht das dynamische Wissen des MDP modelliert, sondern die Q-Werte verschiedener Aktionen in jedem Zustand direkt schätzt und dann die Aktion mit dem höchsten Q-Wert in jedem Zustand und die entsprechende Strategie auswählt.

Wenn der Computer kontinuierlich auf alle Zustandsaktionen zugreift, konvergiert der Q-Learning-Algorithmus zur optimalen Q-Funktion.

Verschiedene Strategievorteile

  • Kann auf der Grundlage von Lehrbeispielen lernen, die von Menschen bereitgestellt werden, oder anhand von Anleitungen, die von anderen Agenten bereitgestellt werden.
  • Erfahrungen aus alten Strategien können genutzt werden;
  • Es ist möglich, eine deterministische Richtlinie zu erlernen, während eine explorative Richtlinie verwendet wird.
  • Sie können eine Strategie verwenden, um mehrere Strategien gleichzeitig auszuprobieren und zu erlernen.
Verwandte Begriffe: gleiche Strategie, Strategiefunktion