Une Approche d'Apprentissage Contrastif pour l'Entraînement des Prédécesseurs des Autoencodeurs Variationnels

Les autoencodeurs variationnels (VAEs) constituent l'une des familles les plus puissantes de modèles génératifs fondés sur la vraisemblance, avec des applications dans de nombreux domaines. Toutefois, ils peinent à générer des images de haute qualité, en particulier lorsque les échantillons sont extraits du modèle a priori sans aucun ajustement (tempering). Une explication de la faible qualité générative des VAEs réside dans le problème du « trou a priori » : la distribution a priori ne correspond pas à la postérieure approximative agrégée. En raison de cet écart, certaines régions de l'espace latent présentent une densité élevée selon le modèle a priori, mais ne correspondent à aucun exemple d'image encodée. Les échantillons provenant de ces régions sont décodés en images corrompues. Pour résoudre ce problème, nous proposons un modèle a priori basé sur une énergie, défini comme le produit d'une distribution a priori de base et d'un facteur de rééchantillonnage, conçu pour rapprocher la distribution de base de la postérieure agrégée. Nous entraînons ce facteur de rééchantillonnage par estimation contrastive du bruit, et étendons cette approche aux VAEs hiérarchiques comportant plusieurs groupes de variables latentes. Nos expériences montrent que les a priori basés sur l'estimation contrastive du bruit améliorent significativement les performances génératives des VAEs de pointe sur les jeux de données MNIST, CIFAR-10, CelebA 64 et CelebA HQ 256. Notre méthode est simple et s'applique à une large variété de VAEs afin d'améliorer l'expressivité de leur distribution a priori.