Méthodes Asynchrones pour l'Apprentissage par Renforcement Profond

Nous proposons un cadre conceptuellement simple et léger pour l'apprentissage par renforcement profond qui utilise la descente de gradient asynchrone pour l'optimisation des contrôleurs de réseaux neuronaux profonds. Nous présentons des variantes asynchrones de quatre algorithmes standards d'apprentissage par renforcement et montrons que les acteurs-apprenants parallèles ont un effet stabilisant sur l'entraînement, permettant aux quatre méthodes d'entraîner avec succès des contrôleurs de réseaux neuronaux. La méthode la plus performante, une variante asynchrone de l'algorithme acteur-critique, dépasse l'état de l'art dans le domaine Atari tout en s'entraînant pendant la moitié du temps sur un processeur multicœur CPU au lieu d'un GPU. De plus, nous démontrons que l'acteur-critique asynchrone réussit sur une large gamme de problèmes de contrôle moteur continu ainsi que sur une nouvelle tâche consistant à naviguer dans des labyrinthes 3D aléatoires en utilisant une entrée visuelle.