L’Augmentation d’Images, C’est Tout Ce Dont Vous Avez Besoin : Régularisation de l’Apprentissage Par Renforcement Profond à Partir de Pixels

Nous proposons une technique simple de complément de données pouvant être appliquée aux algorithmes standards d’apprentissage par renforcement sans modèle, permettant un apprentissage robuste directement à partir d’images sans recourir à des pertes auxiliaires ni à un pré-entraînement. Cette approche exploite des perturbations d’entrée couramment utilisées dans les tâches de vision par ordinateur afin de régulariser la fonction valeur. Les approches sans modèle existantes, telles que Soft Actor-Critic (SAC), peinent à entraîner efficacement des réseaux profonds à partir de pixels bruts. Toutefois, l’ajout de notre méthode de complément de données améliore considérablement les performances de SAC, lui permettant d’atteindre un niveau d’expertise au plus haut niveau sur la suite de benchmarks DeepMind Control, dépassant ainsi les méthodes basées sur des modèles (Dreamer, PlaNet, SLAC) ainsi que les approches récentes d’apprentissage contrastif (CURL). Notre méthode peut être combinée avec n’importe quel algorithme d’apprentissage par renforcement sans modèle, nécessitant uniquement de légères modifications. Une implémentation est disponible à l’adresse suivante : https://sites.google.com/view/data-regularized-q.