GDI : Repenser ce qui distingue l'apprentissage par renforcement de l'apprentissage supervisé
Le réseau Q profond (Deep Q Network, DQN) a ouvert la porte de l'apprentissage par renforcement profond (Deep Reinforcement Learning, DRL) en combinant apprentissage profond (Deep Learning, DL) et apprentissage par renforcement (Reinforcement Learning, RL). Il a notamment mis en évidence que la distribution des données acquises évolue au cours du processus d'entraînement. Le DQN a identifié que cette propriété pouvait entraîner une instabilité durant l'entraînement, et a donc proposé des méthodes efficaces pour atténuer cet inconvénient. Au lieu de se concentrer uniquement sur les aspects défavorables, nous considérons qu’il est crucial pour l’RL de réduire l’écart entre la distribution estimée des données et la distribution réelle (ground truth), une tâche que l’apprentissage supervisé (Supervised Learning, SL) ne parvient pas à accomplir. À partir de cette nouvelle perspective, nous étendons le paradigme fondamental de l’RL, appelé itération de politique généralisée (Generalized Policy Iteration, GPI), vers une version plus générale, nommée itération de distribution de données généralisée (Generalized Data Distribution Iteration, GDI). Nous montrons que de nombreux algorithmes et techniques d’RL peuvent être unifiés sous ce cadre GDI, qui s’inscrit comme un cas particulier de cette formulation. Nous fournissons une preuve théorique démontrant pourquoi GDI est supérieur à GPI et expliquons son fonctionnement fondamental. Plusieurs algorithmes pratiques basés sur GDI ont été proposés afin de valider son efficacité et sa généralité. Des expérimentations empiriques confirment nos performances de pointe (state-of-the-art, SOTA) sur l’environnement Arcade Learning Environment (ALE), où notre algorithme atteint un score moyen normalisé par rapport à l’humain (mean Human Normalized Score, HNS) de 9620,98 %, un score médian HNS de 1146,39 %, et réalise 22 percées de records mondiaux humains (Human World Record Breakthroughs, HWRB), en n’utilisant que 200 millions de cadres d’entraînement. Ce travail vise à orienter la recherche en apprentissage par renforcement vers une nouvelle ère : celle de la conquête des records mondiaux humains, en visant des agents véritablement supérieurs à l’humain, tant sur le plan de la performance que de l’efficacité.