IMPALA: Skalierbare verteilte Deep-RL mit importance-weighted Akteur-Lerner-Architekturen

In dieser Arbeit streben wir danach, eine große Sammlung von Aufgaben mit einem einzigen Reinforcement-Learning-Agenten und einem einzigen Satz von Parametern zu lösen. Eine wesentliche Herausforderung besteht darin, die erhöhte Datenmenge und die verlängerte Trainingszeit zu bewältigen. Wir haben einen neuen verteilten Agenten namens IMPALA (Importance Weighted Actor-Learner Architecture) entwickelt, der nicht nur bei der Einmachina-Trainingsphase Ressourcen effizienter nutzt, sondern auch auf Tausende von Maschinen skaliert, ohne dabei die Dateneffizienz oder die Ressourcennutzung zu beeinträchtigen. Durch die Kombination von entkoppeltem Handeln und Lernen mit einer neuen Off-Policy-Korrekturmethode namens V-Trace erreichen wir stabiles Lernen bei hoher Durchsatzrate. Wir demonstrieren die Effektivität von IMPALA für das Multi-Task-Reinforcement-Learning anhand von DMLab-30 (einer Sammlung von 30 Aufgaben aus der DeepMind Lab-Umgebung (Beattie et al., 2016)) und Atari-57 (allen verfügbaren Atari-Spielen in der Arcade Learning Environment (Bellemare et al., 2013a)). Unsere Ergebnisse zeigen, dass IMPALA mit weniger Daten bessere Leistungen als frühere Agenten erzielt und entscheidend positive Transferleistungen zwischen den Aufgaben aufgrund seines Multi-Task-Ansatzes aufweist.