Apprentissage profond multi-tâches par renforcement avec PopArt

La communauté de l'apprentissage par renforcement a réalisé des progrès considérables dans la conception d'algorithmes capables de surpasser les performances humaines sur des tâches spécifiques. Ces algorithmes sont généralement formés une tâche à la fois, chaque nouvelle tâche nécessitant l'entraînement d'une nouvelle instance d'agent. Cela signifie que l'algorithme d'apprentissage est général, mais que chaque solution ne l'est pas ; chaque agent ne peut résoudre que la tâche pour laquelle il a été formé. Dans ce travail, nous étudions le problème d'apprendre à maîtriser non pas une, mais plusieurs tâches de prise de décision séquentielle en même temps. Un problème général dans l'apprentissage multitâche est qu'un équilibre doit être trouvé entre les besoins de plusieurs tâches qui compétent pour les ressources limitées d'un seul système d'apprentissage. De nombreux algorithmes d'apprentissage peuvent être distraits par certaines tâches au sein de l'ensemble des tâches à résoudre. Ces tâches apparaissent plus saillantes au processus d'apprentissage, par exemple en raison de la densité ou de l'ampleur des récompenses intra-tâche. Cela entraîne une focalisation de l'algorithme sur ces tâches saillantes au détriment de la généralité. Nous proposons d'adapter automatiquement la contribution de chaque tâche aux mises à jour de l'agent, afin que toutes les tâches aient un impact similaire sur la dynamique d'apprentissage. Cette approche a permis d'obtenir des performances au niveau de l'état de l'art dans l'apprentissage du jeu sur un ensemble de 57 jeux Atari variés. De manière enthousiasmante, notre méthode a appris une seule politique formée - avec un seul ensemble de poids - qui dépasse la performance moyenne humaine. À notre connaissance, c'était la première fois qu'un seul agent surpassait les performances humaines dans ce domaine multitâche. La même approche a également démontré des performances au niveau de l'état de l'art sur un ensemble de 30 tâches dans la plateforme d'apprentissage par renforcement en 3D DeepMind Lab (DeepMind Lab).