Régression pondérée par avantage : apprentissage par renforcement hors politique simple et évolutif

Dans cet article, nous visons à développer un algorithme simple et évolutif d’apprentissage par renforcement qui utilise des méthodes d’apprentissage supervisé classiques comme sous-routines. Notre objectif est d’obtenir un algorithme fondé uniquement sur des fonctions de perte de maximum de vraisemblance simples et convergentes, tout en étant capable d’exploiter efficacement des données hors politique (off-policy). Notre approche proposée, que nous appelons régression pondérée par avantage (advantage-weighted regression, AWR), repose sur deux étapes d’apprentissage supervisé standard : la première consiste à régresser vers des valeurs cibles pour une fonction valeur, la seconde à régresser vers des actions cibles pondérées pour la politique. Cette méthode est simple, générale, compatible avec des actions continues comme discrètes, et peut être mise en œuvre en quelques lignes de code à partir de méthodes d’apprentissage supervisé classiques. Nous fournissons une justification théorique à AWR et analysons ses propriétés lorsqu’elle intègre des données hors politique issues d’un répertoire d’expérience (experience replay). Nous évaluons AWR sur une série de tâches standard du benchmark OpenAI Gym, et montrons qu’elle atteint des performances compétitives par rapport à plusieurs algorithmes d’apprentissage par renforcement d’état de l’art bien établis. AWR est également capable d’apprendre des politiques plus efficaces que la plupart des algorithmes hors politique lorsqu’elle est entraînée sur des jeux de données statiques, sans interaction supplémentaire avec l’environnement. Enfin, nous démontrons la capacité de notre algorithme sur des tâches de contrôle continu complexes, impliquant des personnages simulés hautement sophistiqués.