HyperAIHyperAI
il y a 17 jours

Actor-Critic hors politique avec mémoire de révision d'expérience partagée

Simon Schmitt, Matteo Hessel, Karen Simonyan
Actor-Critic hors politique avec mémoire de révision d'expérience partagée
Résumé

Nous étudions la combinaison d’algorithmes d’apprentissage par renforcement actor-critic avec un mécanisme de rééchantillonnage d’expérience à grande échelle et uniforme, et proposons des solutions à deux défis majeurs : (a) un apprentissage actor-critic efficace avec rééchantillonnage d’expérience, et (b) la stabilité de l’apprentissage hors politique (off-policy), où les agents apprennent à partir du comportement d’autres agents. Nous exploitons ces observations pour accélérer les parcours d’hyperparamètres, dans lesquels tous les agents participants s’exécutent en parallèle et partagent leur expérience via un module de rééchantillonnage commun. À cette fin, nous analysons les compromis biais-variance inhérents à V-trace, une forme d’échantillonnage par importance utilisée dans les méthodes actor-critic. Sur la base de cette analyse, nous soutenons la nécessité de mélanger des expériences tirées du rééchantillonnage avec des expériences en politique (on-policy), et proposons un nouveau schéma de région de confiance qui s’adapte efficacement aux distributions de données pour lesquelles V-trace devient instable. Nous fournissons une validation empirique étendue de la solution proposée. Nous démontrons également les avantages de cette architecture en mettant en évidence une efficacité des données de pointe sur Atari, pour des agents entraînés jusqu’à 200 millions de cadres environnementaux.