IMPALA : Apprentissage par renforcement profond distribué à grande échelle avec des architectures d'acteur-apprenant pondérées par l'importance

Dans cette étude, nous visons à résoudre une vaste collection de tâches en utilisant un seul agent d'apprentissage par renforcement avec un seul ensemble de paramètres. Un défi majeur est de gérer la quantité accrue de données et le temps de formation prolongé. Nous avons développé un nouvel agent distribué appelé IMPALA (Architecture d'Acteur-A apprentissage Pondérée par l'Importance) qui non seulement utilise les ressources de manière plus efficace lors de la formation sur une seule machine, mais aussi s'étend à des milliers de machines sans compromettre l'efficacité des données ou l'utilisation des ressources. Nous atteignons un apprentissage stable à haut débit en combinant l'action et l'apprentissage découplés avec une nouvelle méthode de correction hors-politique appelée V-trace. Nous démontrons l'efficacité d'IMPALA pour l'apprentissage par renforcement multi-tâche sur DMLab-30 (un ensemble de 30 tâches provenant de l'environnement DeepMind Lab (Beattie et al., 2016)) et Atari-57 (tous les jeux Atari disponibles dans l'Arcade Learning Environment (Bellemare et al., 2013a)). Nos résultats montrent que IMPALA est capable d'atteindre des performances supérieures à celles des agents précédents avec moins de données, et qu'il présente un transfert positif entre les tâches grâce à son approche multi-tâche.