Augmenter l'écart d'action : Nouveaux opérateurs pour l'apprentissage par renforcement

Ce document introduit de nouveaux opérateurs préservant l'optimalité sur les fonctions Q. Nous décrivons d'abord un opérateur pour les représentations tabulaires, l'opérateur de Bellman cohérent, qui intègre une notion de cohérence locale des politiques. Nous montrons que cette cohérence locale entraîne une augmentation de l'écart d'action à chaque état ; en augmentant cet écart, nous soutenons que cela atténue les effets indésirables des erreurs d'approximation et d'estimation sur les politiques gloutonnes induites. Cet opérateur peut également être appliqué aux problèmes d'espace et de temps continus discrétisés, et nous fournissons des résultats empiriques témoignant d'une performance supérieure dans ce contexte. En prolongeant l'idée d'un opérateur localement cohérent, nous établissons ensuite des conditions suffisantes pour qu'un opérateur préserve l'optimalité, conduisant à une famille d'opérateurs qui inclut notre opérateur de Bellman cohérent. Comme corollaires, nous fournissons une preuve d'optimalité pour l'algorithme d'apprentissage par avantage de Baird et dérivons d'autres opérateurs augmentant l'écart avec des propriétés intéressantes. Nous concluons par une étude empirique sur 60 jeux Atari 2600 illustrant le fort potentiel de ces nouveaux opérateurs.