HyperAIHyperAI
il y a 18 jours

Analyse de la distillation de politique dans l'apprentissage multi-tâches et le renforcement méta dans Meta-World

{Nathan Blair, Victor Chan and Adarsh Karnati}
Analyse de la distillation de politique dans l'apprentissage multi-tâches et le renforcement méta dans Meta-World
Résumé

La distillation de politiques partitionne un processus de décision markovien (MDP) en plusieurs sous-ensembles, apprend des politiques d’expert dans chacun de ces sous-ensembles individuels, puis les combine en une seule politique globale couvrant l’espace entier. De la même manière qu’une équipe sportive repose sur des postes spécifiques, chacun apportant ses compétences propres, la distillation de politiques exploite la structure d’un MDP en apprenant d’abord des experts locaux adaptés à chaque partition, sans nécessiter une généralisation aussi large. Lorsqu’elles sont combinées en une politique globale, ces politiques locales contribuent chacune aux caractéristiques apprises au sein de leur partition respective. Selon la région de l’espace d’état confrontée par la politique globale, celle-ci peut tirer parti des fonctionnalités acquises par la politique locale correspondante.L’apprentissage métacognitif (meta-reinforcement learning) et l’apprentissage multi-tâches (multi-task learning) constituent des domaines étroitement liés. Alors que l’apprentissage métacognitif vise à résoudre rapidement de nouvelles tâches à partir d’expériences antérieures, l’apprentissage multi-tâches se concentre davantage sur la capacité d’un algorithme à généraliser à une large distribution de tâches simultanément. Toutefois, une réussite en apprentissage métacognitif est généralement corrélée à de meilleures performances en apprentissage multi-tâches, et inversement. Un agent capable de s’adapter rapidement à une nouvelle tâche est, par définition, meilleur pour apprendre cette tâche ; de même, un agent ayant généralisé à de nombreuses tâches sera probablement plus rapide à apprendre une nouvelle tâche connexe. Étant donné que tant l’apprentissage métacognitif que l’apprentissage multi-tâches reposent sur de nombreuses tâches individuelles, ils sont naturellement propices à une partition de l’espace d’état. La distillation de politiques s’est montrée prometteuse dans le cadre de l’apprentissage multi-tâches, mais les résultats restent limités et peu étudiés. Nous explorons ici l’application d’un algorithme de distillation de politiques, Divide-and-Conquer (DnC), sur le benchmark Meta-World.Divide-and-Conquer (DnC) est un algorithme de distillation de politiques qui utilise un contexte pour représenter les informations relatives aux partitions de l’espace d’état. À partir de ces contextes, des politiques locales sont entraînées sous contraintes de divergence de Kullback-Leibler (KL) afin de maintenir une similarité entre elles. Ces politiques locales sont ensuite combinées en une politique globale grâce à une autre contrainte de divergence KL.Meta-World est un nouveau benchmark dédié à l’apprentissage multi-tâches et à l’apprentissage métacognitif. Nous analysons les performances de DnC sur les deux benchmarks : métacognitif (ML) et multi-tâches (MT), en utilisant l’optimisation de politique par région de confiance (Trust-Region Policy Optimization, TRPO) comme référence. Pour le benchmark métacognitif, nous partitionnons l’espace d’état selon les tâches individuelles pour DnC. Pendant l’entraînement métacognitif, nous utilisons uniquement les tâches d’entraînement comme partitions pour DnC, sans inclure les tâches de test. Une fois la politique globale finale obtenue après l’entraînement métacognitif, nous l’appliquons aux tâches de test afin d’évaluer les récompenses finales et les taux de réussite. Pour le benchmark multi-tâches, nous procédons de même en partitionnant l’espace d’état par tâches distinctes. Toutefois, aucune tâche n’est réservée : DnC s’entraîne sur toutes les tâches et est testé sur l’ensemble. Chaque tâche individuelle comporte également des états objectifs variables, ce qui impose aux politiques locales d’apprendre à s’adapter à ces états changeants. La politique globale doit non seulement maîtriser la résolution des tâches d’entraînement distinctes, mais aussi apprendre à s’adapter aux différents états objectifs au sein de chaque tâche.Nous constatons que DnC atteint des performances équivalentes à celles de notre référence TRPO sur le benchmark métacognitif. Lorsque l’espace d’état est partitionné selon les tâches individuelles, les politiques locales parviennent à apprendre correctement à résoudre chaque tâche avec un taux de réussite d’environ 4 à 5 %. La politique globale, composée de ces politiques experts locales, affiche des performances et des taux de réussite identiques à ceux des politiques locales. Sur le benchmark multi-tâches, DnC atteint des taux de réussite d’environ 65 %. Nous pensons que, étant donné que DnC est un algorithme de distillation de politiques et que les environnements de test en apprentissage multi-tâches incluent les mêmes tâches que celles d’entraînement, DnC peut mémoriser chaque tâche individuelle et se comporter efficacement sur toutes les tâches lors du test. En revanche, dans le cadre de l’apprentissage métacognitif, il est plus difficile à DnC de s’adapter à de nouvelles tâches au moment du test, ce qui explique que ses performances sont nettement inférieures.