Étude à grande échelle de l'apprentissage motivé par la curiosité

Les algorithmes d'apprentissage par renforcement s'appuient sur une ingénierie minutieuse des récompenses de l'environnement qui sont extrinsèques à l'agent. Cependant, l'annotation de chaque environnement avec des récompenses denses conçues manuellement n'est pas scalable, ce qui motive la nécessité de développer des fonctions de récompense intrinsèques à l'agent. La curiosité est un type de fonction de récompense intrinsèque qui utilise l'erreur de prédiction comme signal de récompense. Dans cet article : (a) Nous menons la première étude à grande échelle sur l'apprentissage uniquement guidé par la curiosité, c'est-à-dire sans aucune récompense extrinsèque, dans 54 environnements standards de référence, y compris la suite de jeux Atari. Nos résultats montrent des performances surprenantes et un haut degré d'alignement entre l'objectif intrinsèque de curiosité et les récompenses extrinsèques conçues manuellement dans de nombreux environnements de jeu. (b) Nous examinons l'effet de l'utilisation d'espaces caractéristiques différents pour calculer l'erreur de prédiction et montrons que les caractéristiques aléatoires suffisent pour beaucoup de benchmarks populaires en apprentissage par renforcement (RL), mais les caractéristiques apprises semblent généraliser mieux (par exemple, aux niveaux inédits dans Super Mario Bros.). (c) Nous démontrons les limites des récompenses basées sur la prédiction dans les configurations stochastiques. Les vidéos du jeu et le code sont disponibles à l'adresse https://pathak22.github.io/large-scale-curiosity/