HyperAIHyperAI

Command Palette

Search for a command to run...

DisCor : Rétroaction corrective dans l’apprentissage par renforcement par correction de distribution

Aviral Kumar Abhishek Gupta Sergey Levine

Résumé

L’apprentissage par renforcement profond peut apprendre des politiques efficaces pour une large gamme de tâches, mais il est notoirement difficile à utiliser en raison d’une instabilité et d’une sensibilité élevée aux hyperparamètres. Les raisons de ce comportement restent mal comprises. Lorsqu’on utilise des méthodes supervisées standards (par exemple, pour les bandits), la collecte de données en politique (on-policy) fournit des « négatifs durs » qui corrigent précisément le modèle dans les états et actions auxquels la politique est susceptible de se rendre. Nous appelons ce phénomène « rétroaction corrective ». Nous montrons que les algorithmes Q-apprentissage fondés sur le bootstrap ne bénéficient pas nécessairement de cette rétroaction corrective, et qu’un entraînement sur l’expérience collectée par l’algorithme n’est pas suffisant pour corriger les erreurs de la fonction Q. En réalité, l’apprentissage Q et les méthodes associées peuvent présenter des interactions pathologiques entre la distribution d’expérience collectée par l’agent et la politique induite par l’entraînement sur cette expérience, entraînant une instabilité potentielle, une convergence sous-optimale, et de mauvaises performances lors de l’apprentissage à partir de récompenses bruitées, rares ou retardées. Nous démontrons l’existence de ce problème, à la fois théoriquement et empiriquement. Nous montrons ensuite qu’une correction spécifique de la distribution des données peut atténuer ce problème. À partir de ces observations, nous proposons un nouvel algorithme, DisCor, qui calcule une approximation de cette distribution optimale et l’utilise pour répondérer les transitions utilisées pour l’entraînement, entraînant ainsi des améliorations substantielles dans diverses situations complexes d’apprentissage par renforcement, telles que l’apprentissage multi-tâches ou l’apprentissage à partir de signaux de récompense bruités. Un billet de blog présentant un résumé de ce travail est disponible à l’adresse : https://bair.berkeley.edu/blog/2020/03/16/discor/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp