vor 2 Monaten

Massiv parallele Methoden für tiefes Reinforcement Learning

Arun Nair; Praveen Srinivasan; Sam Blackwell; Cagdas Alcicek; Rory Fearon; Alessandro De Maria; Vedavyas Panneershelvam; Mustafa Suleyman; Charles Beattie; Stig Petersen; Shane Legg; Volodymyr Mnih; Koray Kavukcuoglu; David Silver

Details der Forschungsarbeit anzeigen

Massiv parallele Methoden für tiefes Reinforcement Learning

Abstract

Wir präsentieren die erste massiv verteilte Architektur für tiefes Reinforcement Learning. Diese Architektur verwendet vier Hauptkomponenten: parallele Akteure, die neues Verhalten erzeugen; parallele Lernmodule, die auf der gespeicherten Erfahrung trainiert werden; ein verteiltes neuronales Netzwerk zur Darstellung der Wertfunktion oder des Verhaltensrichtlinien; und einen verteilten Erfahrungsspeicher. Wir haben unsere Architektur zum Implementieren des Deep Q-Network-Algorithmus (DQN) verwendet. Unser verteilter Algorithmus wurde auf 49 Spiele aus den Atari 2600-Spielen aus der Arcade Learning Environment angewendet, wobei identische Hyperparameter verwendet wurden. Unsere Leistung übertraf den nicht-verteilten DQN in 41 von 49 Spielen und reduzierte zudem die benötigte Wandlaufzeit um eine Größenordnung bei den meisten Spielen.