Relecture d'Expérience Prioritée Distribuée

Nous proposons une architecture distribuée pour l'apprentissage par renforcement profond à grande échelle, permettant aux agents d'apprendre efficacement à partir de quantités de données plusieurs ordres de grandeur supérieures à ce qui était précédemment possible. L'algorithme découple l'action de l'apprentissage : les acteurs interagissent avec leurs propres instances de l'environnement en sélectionnant des actions selon un réseau neuronal partagé, et accumulent l'expérience résultante dans une mémoire de répétition d'expérience partagée ; l'apprenant rejoue des échantillons d'expérience et met à jour le réseau neuronal. Cette architecture repose sur la répétition d'expérience prioritaire pour se concentrer uniquement sur les données les plus significatives générées par les acteurs. Notre architecture améliore considérablement l'état de l'art dans l'Environnement d'Apprentissage Arcade, atteignant une meilleure performance finale en un temps de formation bien inférieur.