Command Palette
Search for a command to run...
Massiv parallele Methoden für tiefes Reinforcement Learning
Massiv parallele Methoden für tiefes Reinforcement Learning
Zusammenfassung
Wir präsentieren die erste massiv verteilte Architektur für tiefes Reinforcement Learning. Diese Architektur verwendet vier Hauptkomponenten: parallele Akteure, die neues Verhalten erzeugen; parallele Lernmodule, die auf der gespeicherten Erfahrung trainiert werden; ein verteiltes neuronales Netzwerk zur Darstellung der Wertfunktion oder des Verhaltensrichtlinien; und einen verteilten Erfahrungsspeicher. Wir haben unsere Architektur zum Implementieren des Deep Q-Network-Algorithmus (DQN) verwendet. Unser verteilter Algorithmus wurde auf 49 Spiele aus den Atari 2600-Spielen aus der Arcade Learning Environment angewendet, wobei identische Hyperparameter verwendet wurden. Unsere Leistung übertraf den nicht-verteilten DQN in 41 von 49 Spielen und reduzierte zudem die benötigte Wandlaufzeit um eine Größenordnung bei den meisten Spielen.