HyperAIHyperAI
vor 2 Monaten

Evolutionsstrategien als skalierbare Alternative zum Reinforcement Learning

Tim Salimans; Jonathan Ho; Xi Chen; Szymon Sidor; Ilya Sutskever
Evolutionsstrategien als skalierbare Alternative zum Reinforcement Learning
Abstract

Wir untersuchen die Verwendung von Evolutionsstrategien (ES), einer Klasse von Black-Box-Optimierungsalgorithmen, als Alternative zu gängigen MDP-basierten RL-Techniken wie Q-Lernen und Policy Gradients. Experimente auf MuJoCo und Atari zeigen, dass ES eine tragfähige Lösungsstrategie ist, die sich sehr gut mit der Anzahl der verfügbaren CPUs skaliert: Durch die Verwendung einer neuen Kommunikationsstrategie basierend auf gemeinsamen Zufallszahlen benötigt unsere ES-Implementierung nur den Austausch von Skalaren, was es ermöglicht, auf über tausend parallele Worker zu skalieren. Dies ermöglicht es uns, das 3D-Humanoidenlaufen in 10 Minuten zu lösen und nach einer Stunde Training wettbewerbsfähige Ergebnisse bei den meisten Atari-Spielen zu erzielen. Darüber hinaus betonen wir mehrere Vorteile von ES als Black-Box-Optimierungstechnik: Sie ist invariant gegenüber Aktionshäufigkeit und verzögerten Belohnungen, toleriert extrem lange Zeithorizonte und benötigt weder temporale Diskontierung noch Wertfunktionssapproximation.