Command Palette
Search for a command to run...
Apprentissage profond distribué par renforcement : Apprenez à jouer aux jeux Atari en 21 minutes
Apprentissage profond distribué par renforcement : Apprenez à jouer aux jeux Atari en 21 minutes
Igor Adamski; Robert Adamski; Tomasz Grel; Adam Jędrych; Kamil Kaczmarek; Henryk Michalewski
Résumé
Nous présentons une étude dans le domaine de l'Apprentissage Profond Distribué (Distributed Deep Reinforcement Learning, DDRL) axée sur la scalabilité d'un algorithme d'Apprentissage par Renforcement Profond de pointe connu sous le nom de Batch Asynchronous Advantage ActorCritic (BA3C). Nous démontrons que l'utilisation de l'algorithme d'optimisation Adam avec une taille de lot allant jusqu'à 2048 est une option viable pour effectuer des calculs d'apprentissage automatique à grande échelle. Cette approche, combinée à un examen minutieux des hyperparamètres de l'optimiseur, à l'utilisation d'une formation synchrone au niveau des nœuds (tout en conservant la partie locale, mono-nœud de l'algorithme asynchrone) et à la minimisation de l'emprise mémoire du modèle, nous a permis d'atteindre une scalabilité linéaire jusqu'à 64 nœuds CPU. Cela correspond à un temps de formation de 21 minutes sur 768 cœurs CPU, contre 10 heures nécessaires pour une implémentation mono-nœud utilisant 24 cœurs.