Recurrent Experience Replay in der verteilten Verstärkungslernung

Ausgehend von den jüngsten Erfolgen bei der verteilten Training von RL-Agenten untersuchen wir in diesem Paper das Training von RNN-basierten RL-Agenten mittels verteilter priorisierter Erfahrungsreplay. Wir analysieren die Auswirkungen von Parameterverzögerungen, die zu einer Repräsentationsdrift und einer Veraltetheit des rekurrenten Zustands führen, und leiten empirisch eine verbesserte Trainingsstrategie ab. Unter Verwendung einer einzigen Netzwerkarchitektur und einer festen Menge von Hyperparametern erreicht der resultierende Agent, Recurrent Replay Distributed DQN, eine Vervierfachung der bisherigen State-of-the-Art-Leistung auf Atari-57 und übertrifft die aktuelle State-of-the-Art-Leistung auf DMLab-30. Er ist der erste Agent, der in 52 von 57 Atari-Spielen die menschliche Leistung übertreffen kann.