HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration basée sur les comptages avec la représentation successorale

Marlos C. Machado Marc G. Bellemare Michael Bowling

Résumé

Dans cet article, nous présentons une approche simple pour l'exploration dans l'apprentissage par renforcement (AR) qui nous permet de développer des algorithmes théoriquement justifiés dans le cas tabulaire mais qui peut également être étendue à des configurations nécessitant une approximation de fonction. Notre approche est basée sur la représentation successor (RS), qui a été initialement introduite comme une représentation définissant la généralisation d'état par la similarité des états successeurs. Ici, nous montrons que la norme de la RS, pendant son apprentissage, peut être utilisée comme un bonus de récompense pour inciter l'exploration. Pour mieux comprendre ce comportement transitoire de la norme de la RS, nous introduisons la représentation successor sous-stochastique (SSR) et démontrons qu'elle compte implicitement le nombre de fois où chaque état (ou caractéristique) a été observé. Nous utilisons ce résultat pour présenter un algorithme dont les performances sont comparables à celles de certaines approches théoriquement efficaces en termes d'échantillonnage. Enfin, nous étendons ces idées à un algorithme d'AR profond et montrons qu'il atteint des performances de pointe dans les jeux Atari 2600 lorsqu'il est utilisé dans un régime à faible complexité échantillonnale.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp