HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage par Imitation de Soi

Junhyuk Oh Yijie Guo Satinder Singh Honglak Lee

Résumé

Ce document propose l'Auto-Apprentissage par Imitation (Self-Imitation Learning, SIL), un algorithme acteur-critique hors-politique simple qui apprend à reproduire les bonnes décisions passées de l'agent. Cet algorithme est conçu pour vérifier notre hypothèse selon laquelle l'exploitation des bonnes expériences passées peut indirectement favoriser une exploration approfondie. Nos résultats empiriques montrent que SIL améliore considérablement l'algorithme d'avantage acteur-critique (Advantage Actor-Critic, A2C) sur plusieurs jeux Atari à exploration difficile et qu'il est compétitif par rapport aux méthodes d'exploration basées sur le comptage de pointe. Nous montrons également que SIL améliore l'optimisation de politique proximale (Proximal Policy Optimization, PPO) sur les tâches MuJoCo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp