NVAE : un autoencodeur variationnel hiérarchique profond

Les flows de normalisation, les modèles autoregressifs, les autoencodeurs variationnels (VAEs) et les modèles énergétiques profonds font partie des cadres concurrents fondés sur la vraisemblance pour l’apprentissage génératif profond. Parmi ceux-ci, les VAEs présentent l’avantage d’un échantillonnage rapide et traitable ainsi que d’un réseau d’encodage facilement accessible. Toutefois, ils sont actuellement surpassés par d’autres modèles, tels que les flows de normalisation et les modèles autoregressifs. Alors que la majorité des recherches sur les VAEs se concentrent sur les défis statistiques, nous explorons ici une direction orthogonale : la conception soigneuse d’architectures neuronales pour les VAEs hiérarchiques. Nous proposons NVAE (Nouveau VAE), un VAE hiérarchique profond conçu pour la génération d’images, basé sur des convolutions séparables par profondeur et une normalisation par lot. NVAE intègre une paramétrisation résiduelle des distributions normales, et son entraînement est stabilisé par une régularisation spectrale. Nous montrons que NVAE atteint des résultats de pointe parmi les modèles fondés sur la vraisemblance non autoregressifs sur les jeux de données MNIST, CIFAR-10, CelebA 64 et CelebA HQ, tout en offrant une base solide sur FFHQ. Par exemple, sur CIFAR-10, NVAE améliore le meilleur résultat précédent de 2,98 à 2,91 bits par dimension, tout en produisant des images de haute qualité sur CelebA HQ. À notre connaissance, NVAE est le premier VAE réussi appliqué à des images naturelles de taille aussi importante que 256×256 pixels. Le code source est disponible à l’adresse suivante : https://github.com/NVlabs/NVAE.