HyperAIHyperAI
il y a 2 mois

Exploration basée sur les comptages avec la représentation successorale

Marlos C. Machado; Marc G. Bellemare; Michael Bowling
Exploration basée sur les comptages avec la représentation successorale
Résumé

Dans cet article, nous présentons une approche simple pour l'exploration dans l'apprentissage par renforcement (AR) qui nous permet de développer des algorithmes théoriquement justifiés dans le cas tabulaire mais qui peut également être étendue à des configurations nécessitant une approximation de fonction. Notre approche est basée sur la représentation successor (RS), qui a été initialement introduite comme une représentation définissant la généralisation d'état par la similarité des états successeurs. Ici, nous montrons que la norme de la RS, pendant son apprentissage, peut être utilisée comme un bonus de récompense pour inciter l'exploration. Pour mieux comprendre ce comportement transitoire de la norme de la RS, nous introduisons la représentation successor sous-stochastique (SSR) et démontrons qu'elle compte implicitement le nombre de fois où chaque état (ou caractéristique) a été observé. Nous utilisons ce résultat pour présenter un algorithme dont les performances sont comparables à celles de certaines approches théoriquement efficaces en termes d'échantillonnage. Enfin, nous étendons ces idées à un algorithme d'AR profond et montrons qu'il atteint des performances de pointe dans les jeux Atari 2600 lorsqu'il est utilisé dans un régime à faible complexité échantillonnale.

Exploration basée sur les comptages avec la représentation successorale | Articles de recherche récents | HyperAI