HyperAIHyperAI

Command Palette

Search for a command to run...

Correction de l'erreur d'approximation de fonction dans les méthodes acteur-critique

Scott Fujimoto Herke van Hoof David Meger

Résumé

Dans les méthodes d'apprentissage par renforcement basées sur la valeur, telles que l'apprentissage profond Q (deep Q-learning), il est connu que les erreurs d'approximation de fonction entraînent des estimations de valeur surestimées et des politiques sous-optimales. Nous démontrons que ce problème persiste dans un cadre acteur-critique et proposons de nouveaux mécanismes pour minimiser ses effets tant sur l'acteur que sur le critique. Notre algorithme s'appuie sur le Double Q-learning, en prenant la valeur minimale entre une paire de critiques pour limiter la surestimation. Nous établissons le lien entre les réseaux cibles et le biais de surestimation, et suggérons de retarder les mises à jour de la politique afin de réduire l'erreur par mise à jour et d'améliorer davantage les performances. Nous évaluons notre méthode sur la suite de tâches OpenAI Gym, surpassant l'état de l'art dans chaque environnement testé.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp