HyperAIHyperAI

Command Palette

Search for a command to run...

Funktionsapproximationsfehler in Actor-Critic-Methoden beheben

Scott Fujimoto Herke van Hoof David Meger

Zusammenfassung

In wertbasierten Verstärkungslernalgorithmen wie Deep Q-Learning sind Funktionsapproximationsfehler bekannt dafür, zu überschätzten Wertabschätzungen und suboptimalen Strategien zu führen. Wir zeigen, dass dieses Problem auch in einem Schauspieler-Kritiker-Setting besteht, und schlagen neue Mechanismen vor, um seine Auswirkungen sowohl auf den Schauspieler als auch auf den Kritiker zu minimieren. Unser Algorithmus basiert auf Double Q-Learning, indem er den minimalen Wert zwischen einem Paar von Kritikern verwendet, um die Überschätzung zu begrenzen. Wir legen den Zusammenhang zwischen Zielnetzwerken und der Überschätzungsbias dar und empfehlen die Verzögerung von Strategieaktualisierungen, um den pro Aktualisierung auftretenden Fehler zu reduzieren und die Leistung weiter zu verbessern. Wir evaluieren unsere Methode anhand der Aufgaben des OpenAI Gym-Sets und übertreffen den Stand der Technik in jeder getesteten Umgebung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Funktionsapproximationsfehler in Actor-Critic-Methoden beheben | Paper | HyperAI