Modèles mondiaux plus petits pour l’apprentissage par renforcement

L’efficacité des échantillons reste un enjeu fondamental de l’apprentissage par renforcement. Les algorithmes basés sur un modèle cherchent à tirer un meilleur parti des données en simulant l’environnement à l’aide d’un modèle. Nous proposons une nouvelle architecture de réseau de neurones pour les modèles mondiaux, basée sur un auto-encodeur variationnel quantifié par vecteurs (VQ-VAE) afin de coder les observations, et sur un LSTM convolutif pour prédire les indices d’embeddings suivants. Un agent PPO sans modèle est entraîné exclusivement sur des expériences simulées issues du modèle mondial. Nous adoptons le cadre introduit par Kaiser et al. (2020), qui limite à 100 000 interactions avec l’environnement réel. Nous appliquons notre méthode à 36 environnements Atari et montrons que nous atteignons une performance comparable à celle de l’algorithme SimPLe, tout en utilisant un modèle significativement plus petit.