Apprentissage de représentation avec le codage prédictif contrastif

Bien que l'apprentissage supervisé ait permis de grandes avancées dans de nombreuses applications, l'apprentissage non supervisé n'a pas connu une telle adoption généralisée et reste un défi important pour l'intelligence artificielle. Dans ce travail, nous proposons une approche universelle d'apprentissage non supervisé pour extraire des représentations utiles à partir de données de grande dimension, que nous appelons le Codage Prédictif Contrastif (Contrastive Predictive Coding). L'insight clé de notre modèle est d'apprendre ces représentations en prédiction du futur dans l'espace latent en utilisant des modèles autorégressifs puissants. Nous utilisons une perte contrastive probabiliste qui incite l'espace latent à capturer les informations maximement utiles pour prédire les échantillons futurs. Cette méthode rend également le modèle traitable grâce à l'échantillonnage négatif. Alors que la plupart des travaux précédents se sont concentrés sur l'évaluation des représentations pour une modalité particulière, nous démontrons que notre approche est capable d'apprendre des représentations utiles atteignant de bonnes performances dans quatre domaines distincts : la parole, les images, le texte et l'apprentissage par renforcement dans des environnements 3D.