HyperAIHyperAI

Command Palette

Search for a command to run...

Augmenter l'écart d'action : Nouveaux opérateurs pour l'apprentissage par renforcement

Marc G. Bellemare; Georg Ostrovski; Arthur Guez; Philip S. Thomas; Rémi Munos

Résumé

Ce document introduit de nouveaux opérateurs préservant l'optimalité sur les fonctions Q. Nous décrivons d'abord un opérateur pour les représentations tabulaires, l'opérateur de Bellman cohérent, qui intègre une notion de cohérence locale des politiques. Nous montrons que cette cohérence locale entraîne une augmentation de l'écart d'action à chaque état ; en augmentant cet écart, nous soutenons que cela atténue les effets indésirables des erreurs d'approximation et d'estimation sur les politiques gloutonnes induites. Cet opérateur peut également être appliqué aux problèmes d'espace et de temps continus discrétisés, et nous fournissons des résultats empiriques témoignant d'une performance supérieure dans ce contexte. En prolongeant l'idée d'un opérateur localement cohérent, nous établissons ensuite des conditions suffisantes pour qu'un opérateur préserve l'optimalité, conduisant à une famille d'opérateurs qui inclut notre opérateur de Bellman cohérent. Comme corollaires, nous fournissons une preuve d'optimalité pour l'algorithme d'apprentissage par avantage de Baird et dérivons d'autres opérateurs augmentant l'écart avec des propriétés intéressantes. Nous concluons par une étude empirique sur 60 jeux Atari 2600 illustrant le fort potentiel de ces nouveaux opérateurs.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Augmenter l'écart d'action : Nouveaux opérateurs pour l'apprentissage par renforcement | Articles | HyperAI