il y a 2 mois

Apprentissage de valeurs sur plusieurs ordres de grandeur

Hado van Hasselt; Arthur Guez; Matteo Hessel; Volodymyr Mnih; David Silver

Résumé

La plupart des algorithmes d'apprentissage ne sont pas invariants par rapport à l'échelle de la fonction qu'ils cherchent à approximer. Nous proposons d'adapter la normalisation des cibles utilisées dans l'apprentissage. Cette approche est particulièrement utile en apprentissage par renforcement basé sur les valeurs, où la magnitude des approximations de valeur appropriées peut varier au fil du temps lorsque nous mettons à jour la politique de comportement. Notre principale motivation provient des travaux antérieurs sur l'apprentissage pour jouer aux jeux Atari, où les récompenses étaient toutes limitées à une plage prédéfinie. Cette limitation facilite l'apprentissage sur de nombreux jeux différents avec un seul algorithme d'apprentissage, mais une fonction de récompense limitée peut entraîner un comportement qualitativement différent. En utilisant la normalisation adaptative, nous pouvons supprimer cette heuristique spécifique au domaine sans diminuer les performances globales.