Méthodes Massivement Parallèles pour l'Apprentissage par Renforcement Profond

Nous présentons la première architecture massivement distribuée pour l'apprentissage par renforcement profond. Cette architecture utilise quatre composants principaux : des acteurs parallèles qui génèrent un nouveau comportement ; des apprenants parallèles qui sont formés à partir d'expériences stockées ; un réseau neuronal distribué pour représenter la fonction de valeur ou la politique de comportement ; et un magasin distribué d'expériences. Nous avons utilisé notre architecture pour implémenter l'algorithme Deep Q-Network (DQN). Notre algorithme distribué a été appliqué à 49 jeux issus des jeux Atari 2600 de l'environnement d'apprentissage de l'arcade, avec des hyperparamètres identiques. Nos performances ont surpassé celles du DQN non distribué dans 41 des 49 jeux et ont également réduit le temps nécessaire pour obtenir ces résultats d'un ordre de grandeur sur la plupart des jeux.