HyperAIHyperAI

Command Palette

Search for a command to run...

Evolutionsstrategien als skalierbare Alternative zum Reinforcement Learning

Tim Salimans; Jonathan Ho; Xi Chen; Szymon Sidor; Ilya Sutskever

Zusammenfassung

Wir untersuchen die Verwendung von Evolutionsstrategien (ES), einer Klasse von Black-Box-Optimierungsalgorithmen, als Alternative zu gängigen MDP-basierten RL-Techniken wie Q-Lernen und Policy Gradients. Experimente auf MuJoCo und Atari zeigen, dass ES eine tragfähige Lösungsstrategie ist, die sich sehr gut mit der Anzahl der verfügbaren CPUs skaliert: Durch die Verwendung einer neuen Kommunikationsstrategie basierend auf gemeinsamen Zufallszahlen benötigt unsere ES-Implementierung nur den Austausch von Skalaren, was es ermöglicht, auf über tausend parallele Worker zu skalieren. Dies ermöglicht es uns, das 3D-Humanoidenlaufen in 10 Minuten zu lösen und nach einer Stunde Training wettbewerbsfähige Ergebnisse bei den meisten Atari-Spielen zu erzielen. Darüber hinaus betonen wir mehrere Vorteile von ES als Black-Box-Optimierungstechnik: Sie ist invariant gegenüber Aktionshäufigkeit und verzögerten Belohnungen, toleriert extrem lange Zeithorizonte und benötigt weder temporale Diskontierung noch Wertfunktionssapproximation.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Evolutionsstrategien als skalierbare Alternative zum Reinforcement Learning | Paper | HyperAI