Command Palette
Search for a command to run...
Verteiltes tiefes Reinforcement Learning: Lernen Sie, Atari-Spiele in 21 Minuten zu spielen.
Verteiltes tiefes Reinforcement Learning: Lernen Sie, Atari-Spiele in 21 Minuten zu spielen.
Igor Adamski; Robert Adamski; Tomasz Grel; Adam Jędrych; Kamil Kaczmarek; Henryk Michalewski
Zusammenfassung
Wir präsentieren eine Studie im Bereich der verteilten tiefen Reinforcement Learning (Distributed Deep Reinforcement Learning, DDRL), die sich auf die Skalierbarkeit eines neuesten Verfahrens der tiefen Reinforcement Learning konzentriert, bekannt als Batch Asynchronous Advantage ActorCritic (BA3C). Wir zeigen, dass die Verwendung des Adam-Optimierungsalgorithmus mit einem Batch-Größe von bis zu 2048 eine gangbare Wahl für groß angelegte Maschinenlernberechnungen darstellt. Dies, kombiniert mit einer sorgfältigen Neubewertung der Hyperparameter des Optimierers, dem Einsatz von synchroner Trainingsmethode auf Knotenebene (wobei der lokale, einzelknotige Teil des Algorithmus asynchron bleibt) und der Minimierung des Speicherbedarfs des Modells, ermöglichte es uns, lineare Skalierung bis zu 64 CPU-Knoten zu erreichen. Dies entspricht einer Trainingszeit von 21 Minuten auf 768 CPU-Kernen, im Gegensatz zu den 10 Stunden, die bei Verwendung eines einzelnen Knotens mit 24 Kernen durch eine Baseline-Einzelknotenimplementierung benötigt wurden.