Zur Politik
Dieselbe StrategieDies bedeutet, dass die Strategie zum Generieren von Stichproben mit der Strategie zur Aktualisierung der Netzwerkparameter identisch ist. Es führt die nächste Aktionsauswahl direkt basierend auf der aktuellen Strategie aus und verwendet dieses Beispiel dann, um die Strategie zu aktualisieren. Die Strategie zum Generieren von Stichproben ist die gleiche wie die Strategie beim Lernen.
SARSA-Algorithmus
SARSA (State-Action-Reward-State-Action) ist ein Algorithmus zum Erlernen von Markov-Entscheidungsprozessstrategien, der im Bereich des maschinellen Lernens häufig beim bestärkenden Lernen verwendet wird.
Wichtige Punkte des SARSA-Algorithmus
- Wenn Sie sich im Zustand s‘ befinden, wissen Sie, welches a‘ Sie nehmen müssen, und führen diese Aktion aus.
- Die Auswahl der Aktion a folgt der E-Greedy-Strategie, und die Berechnung des Ziel-Q-Werts basiert auf der durch die E-Greedy-Strategie erzielten Aktion a'. Es handelt sich also um On-Policy-Lernen.
Vor- und Nachteile der gleichen Strategie
- Vorteile: Jeder Schritt kann aktualisiert werden, was offensichtlich ist, und die Lerngeschwindigkeit ist schnell. Es kann Szenarien ohne Ergebnisse bewältigen und verfügt über ein breites Anwendungsspektrum.
- Nachteile: Begegnung mit dem Widerspruch zwischen Erkundung und Nutzung; Nur die Verwendung der bekannten optimalen Wahl führt möglicherweise nicht zum Erlernen der optimalen Lösung. Konvergenz zum lokalen Optimum, zusätzliche Erkundung und Verringerung der Lerneffizienz.
Gleiche Strategie und unterschiedliche Strategien
Der Unterschied zwischen derselben Strategie und unterschiedlichen Strategien besteht darin, ob beim Aktualisieren des Q-Werts die etablierte Strategie oder eine neue Strategie verwendet wird.