HyperAIHyperAI
il y a 2 mois

Replay d'Expérience Prioritaire

Tom Schaul; John Quan; Ioannis Antonoglou; David Silver
Replay d'Expérience Prioritaire
Résumé

Le mécanisme de répétition d'expérience (experience replay) permet aux agents d'apprentissage par renforcement en ligne de se souvenir et de réutiliser des expériences passées. Dans les travaux précédents, les transitions d'expérience étaient échantillonnées uniformément à partir d'une mémoire de répétition. Cependant, cette approche rejoue simplement les transitions avec la même fréquence qu'elles ont été initialement vécues, sans tenir compte de leur importance. Dans cet article, nous élaborons un cadre pour la priorisation des expériences, afin de rejouer plus fréquemment les transitions importantes et donc d'apprendre plus efficacement. Nous utilisons la répétition d'expérience prioritaire dans les Réseaux Q Profonds (Deep Q-Networks, DQN), un algorithme d'apprentissage par renforcement qui a atteint des performances au niveau humain dans de nombreux jeux Atari. Le DQN avec répétition d'expérience prioritaire atteint un nouveau niveau d'état de l'art, surpassant le DQN avec répétition uniforme sur 41 des 49 jeux testés.