HyperAIHyperAI
vor 2 Monaten

Funktionsapproximationsfehler in Actor-Critic-Methoden beheben

Scott Fujimoto; Herke van Hoof; David Meger
Funktionsapproximationsfehler in Actor-Critic-Methoden beheben
Abstract

In wertbasierten Verstärkungslernalgorithmen wie Deep Q-Learning sind Funktionsapproximationsfehler bekannt dafür, zu überschätzten Wertabschätzungen und suboptimalen Strategien zu führen. Wir zeigen, dass dieses Problem auch in einem Schauspieler-Kritiker-Setting besteht, und schlagen neue Mechanismen vor, um seine Auswirkungen sowohl auf den Schauspieler als auch auf den Kritiker zu minimieren. Unser Algorithmus basiert auf Double Q-Learning, indem er den minimalen Wert zwischen einem Paar von Kritikern verwendet, um die Überschätzung zu begrenzen. Wir legen den Zusammenhang zwischen Zielnetzwerken und der Überschätzungsbias dar und empfehlen die Verzögerung von Strategieaktualisierungen, um den pro Aktualisierung auftretenden Fehler zu reduzieren und die Leistung weiter zu verbessern. Wir evaluieren unsere Methode anhand der Aufgaben des OpenAI Gym-Sets und übertreffen den Stand der Technik in jeder getesteten Umgebung.

Funktionsapproximationsfehler in Actor-Critic-Methoden beheben | Neueste Forschungsarbeiten | HyperAI