Correction de l'erreur d'approximation de fonction dans les méthodes acteur-critique

Dans les méthodes d'apprentissage par renforcement basées sur la valeur, telles que l'apprentissage profond Q (deep Q-learning), il est connu que les erreurs d'approximation de fonction entraînent des estimations de valeur surestimées et des politiques sous-optimales. Nous démontrons que ce problème persiste dans un cadre acteur-critique et proposons de nouveaux mécanismes pour minimiser ses effets tant sur l'acteur que sur le critique. Notre algorithme s'appuie sur le Double Q-learning, en prenant la valeur minimale entre une paire de critiques pour limiter la surestimation. Nous établissons le lien entre les réseaux cibles et le biais de surestimation, et suggérons de retarder les mises à jour de la politique afin de réduire l'erreur par mise à jour et d'améliorer davantage les performances. Nous évaluons notre méthode sur la suite de tâches OpenAI Gym, surpassant l'état de l'art dans chaque environnement testé.