HyperAIHyperAI

Command Palette

Search for a command to run...

GDI : Repenser ce qui distingue l'apprentissage par renforcement de l'apprentissage supervisé

Jiajun Fan Changnan Xiao Yue Huang

Résumé

Le réseau Q profond (Deep Q Network, DQN) a ouvert la porte de l'apprentissage par renforcement profond (Deep Reinforcement Learning, DRL) en combinant apprentissage profond (Deep Learning, DL) et apprentissage par renforcement (Reinforcement Learning, RL), en mettant en évidence que la distribution des données acquises évolue au cours du processus d'entraînement. DQN a identifié que cette propriété pouvait entraîner une instabilité durant l'entraînement, et a donc proposé des méthodes efficaces pour atténuer cet inconvénient. Au lieu de se concentrer uniquement sur les aspects défavorables, nous considérons qu’il est fondamental pour l’RL de réduire l’écart entre la distribution estimée des données et la distribution réelle des données, une tâche que l’apprentissage supervisé (Supervised Learning, SL) ne parvient pas à accomplir. À partir de cette nouvelle perspective, nous étendons le paradigme fondamental de l’RL, appelé itération politique généralisée (Generalized Policy Iteration, GPI), vers une version plus générale, baptisée itération de distribution de données généralisée (Generalized Data Distribution Iteration, GDI). Nous montrons que de nombreux algorithmes et techniques d’RL peuvent être unifiés sous ce cadre GDI, qui apparaît comme un cas particulier de cette formulation. Nous fournissons une preuve théorique démontrant pourquoi GDI est supérieur à GPI et expliquons son fonctionnement. Plusieurs algorithmes pratiques fondés sur GDI ont été proposés afin de valider son efficacité et sa généralité. Des expériences empiriques confirment notre performance de pointe (state-of-the-art, SOTA) sur l’environnement Arcade Learning Environment (ALE), où notre algorithme atteint un score moyen normalisé par rapport à l’humain (Human Normalized Score, HNS) de 9620,98 %, un score médian HNS de 1146,39 %, et réalise 22 ruptures de records mondiaux humains (Human World Record Breakthroughs, HWRB), en utilisant uniquement 200 millions de cadres d’entraînement. Ce travail vise à guider la recherche en apprentissage par renforcement vers une nouvelle ère : celle de la conquête des records mondiaux humains, en cherchant à développer des agents véritablement supérieurs à l’humain, tant sur les performances que sur l’efficacité.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GDI : Repenser ce qui distingue l'apprentissage par renforcement de l'apprentissage supervisé | Articles | HyperAI