HyperAIHyperAI
il y a 17 jours

DisCor : Rétroaction corrective dans l’apprentissage par renforcement par correction de distribution

Aviral Kumar, Abhishek Gupta, Sergey Levine
DisCor : Rétroaction corrective dans l’apprentissage par renforcement par correction de distribution
Résumé

L’apprentissage par renforcement profond peut apprendre des politiques efficaces pour une large gamme de tâches, mais il est notoirement difficile à utiliser en raison d’une instabilité et d’une sensibilité élevée aux hyperparamètres. Les raisons de ce comportement restent mal comprises. Lorsqu’on utilise des méthodes supervisées standards (par exemple, pour les bandits), la collecte de données en politique (on-policy) fournit des « négatifs durs » qui corrigent précisément le modèle dans les états et actions auxquels la politique est susceptible de se rendre. Nous appelons ce phénomène « rétroaction corrective ». Nous montrons que les algorithmes Q-apprentissage fondés sur le bootstrap ne bénéficient pas nécessairement de cette rétroaction corrective, et qu’un entraînement sur l’expérience collectée par l’algorithme n’est pas suffisant pour corriger les erreurs de la fonction Q. En réalité, l’apprentissage Q et les méthodes associées peuvent présenter des interactions pathologiques entre la distribution d’expérience collectée par l’agent et la politique induite par l’entraînement sur cette expérience, entraînant une instabilité potentielle, une convergence sous-optimale, et de mauvaises performances lors de l’apprentissage à partir de récompenses bruitées, rares ou retardées. Nous démontrons l’existence de ce problème, à la fois théoriquement et empiriquement. Nous montrons ensuite qu’une correction spécifique de la distribution des données peut atténuer ce problème. À partir de ces observations, nous proposons un nouvel algorithme, DisCor, qui calcule une approximation de cette distribution optimale et l’utilise pour répondérer les transitions utilisées pour l’entraînement, entraînant ainsi des améliorations substantielles dans diverses situations complexes d’apprentissage par renforcement, telles que l’apprentissage multi-tâches ou l’apprentissage à partir de signaux de récompense bruités. Un billet de blog présentant un résumé de ce travail est disponible à l’adresse : https://bair.berkeley.edu/blog/2020/03/16/discor/.

DisCor : Rétroaction corrective dans l’apprentissage par renforcement par correction de distribution | Articles de recherche récents | HyperAI