Massiv parallele Methoden für tiefes Reinforcement Learning

Wir präsentieren die erste massiv verteilte Architektur für tiefes Reinforcement Learning. Diese Architektur verwendet vier Hauptkomponenten: parallele Akteure, die neues Verhalten erzeugen; parallele Lernmodule, die auf der gespeicherten Erfahrung trainiert werden; ein verteiltes neuronales Netzwerk zur Darstellung der Wertfunktion oder des Verhaltensrichtlinien; und einen verteilten Erfahrungsspeicher. Wir haben unsere Architektur zum Implementieren des Deep Q-Network-Algorithmus (DQN) verwendet. Unser verteilter Algorithmus wurde auf 49 Spiele aus den Atari 2600-Spielen aus der Arcade Learning Environment angewendet, wobei identische Hyperparameter verwendet wurden. Unsere Leistung übertraf den nicht-verteilten DQN in 41 von 49 Spielen und reduzierte zudem die benötigte Wandlaufzeit um eine Größenordnung bei den meisten Spielen.