Le Réacteur : Un agent Acteur-Critique rapide et efficace en termes d'échantillons pour l'Apprentissage par Renforcement

Dans cette étude, nous présentons une nouvelle architecture d'agent, appelée Reactor, qui combine plusieurs contributions algorithmiques et architecturales pour produire un agent plus efficace en termes de prélèvement d'échantillons que le Prioritized Dueling DQN (Wang et al., 2016) et le Categorical DQN (Bellemare et al., 2017), tout en offrant de meilleures performances en temps réel que l'A3C (Mnih et al., 2016). Notre première contribution est un nouvel algorithme d'évaluation de politique appelé Distributional Retrace, qui apporte des mises à jour hors-politique multi-étapes au cadre de l'apprentissage par renforcement distributionnel. La même approche peut être utilisée pour convertir plusieurs classes d'algorithmes d'évaluation de politique multi-étapes conçus pour l'évaluation de la valeur attendue en algorithmes distributionnels. Ensuite, nous introduisons l'algorithme de gradient de politique \b{eta}-leave-one-out, qui améliore le compromis entre variance et biais en utilisant les valeurs d'action comme ligne de base. Notre dernière contribution algorithmique est un nouvel algorithme de répétition prioritaire pour les séquences, qui exploite la localité temporelle des observations voisines pour une répétition prioritaire plus efficace. En utilisant les benchmarks Atari 2600, nous montrons que chacune de ces innovations contribue à la fois à l'efficacité du prélèvement d'échantillons et aux performances finales de l'agent. Enfin, nous démontrons que Reactor atteint des performances de pointe après 200 millions de cadres et moins d'une journée d'entraînement.