HyperAIHyperAI
il y a 11 jours

GDI : Repenser ce qui distingue l'apprentissage par renforcement de l'apprentissage supervisé

Jiajun Fan, Changnan Xiao, Yue Huang
GDI : Repenser ce qui distingue l'apprentissage par renforcement de l'apprentissage supervisé
Résumé

Le réseau Q profond (Deep Q Network, DQN) a ouvert la porte de l'apprentissage par renforcement profond (Deep Reinforcement Learning, DRL) en combinant apprentissage profond (Deep Learning, DL) et apprentissage par renforcement (Reinforcement Learning, RL), en mettant en évidence que la distribution des données acquises évolue au cours du processus d'entraînement. DQN a identifié que cette propriété pouvait entraîner une instabilité durant l'entraînement, et a donc proposé des méthodes efficaces pour atténuer cet inconvénient. Au lieu de se concentrer uniquement sur les aspects défavorables, nous considérons qu’il est fondamental pour l’RL de réduire l’écart entre la distribution estimée des données et la distribution réelle des données, une tâche que l’apprentissage supervisé (Supervised Learning, SL) ne parvient pas à accomplir. À partir de cette nouvelle perspective, nous étendons le paradigme fondamental de l’RL, appelé itération politique généralisée (Generalized Policy Iteration, GPI), vers une version plus générale, baptisée itération de distribution de données généralisée (Generalized Data Distribution Iteration, GDI). Nous montrons que de nombreux algorithmes et techniques d’RL peuvent être unifiés sous ce cadre GDI, qui apparaît comme un cas particulier de cette formulation. Nous fournissons une preuve théorique démontrant pourquoi GDI est supérieur à GPI et expliquons son fonctionnement. Plusieurs algorithmes pratiques fondés sur GDI ont été proposés afin de valider son efficacité et sa généralité. Des expériences empiriques confirment notre performance de pointe (state-of-the-art, SOTA) sur l’environnement Arcade Learning Environment (ALE), où notre algorithme atteint un score moyen normalisé par rapport à l’humain (Human Normalized Score, HNS) de 9620,98 %, un score médian HNS de 1146,39 %, et réalise 22 ruptures de records mondiaux humains (Human World Record Breakthroughs, HWRB), en utilisant uniquement 200 millions de cadres d’entraînement. Ce travail vise à guider la recherche en apprentissage par renforcement vers une nouvelle ère : celle de la conquête des records mondiaux humains, en cherchant à développer des agents véritablement supérieurs à l’humain, tant sur les performances que sur l’efficacité.