BIVA : Une Hiérarchie Très Profonde de Variables Latentes pour la Modélisation Générative

Avec l'introduction de l'auto-encodeur variationnel (VAE), les modèles à variables latentes probabilistes ont attiré une nouvelle attention en tant que modèles génératifs puissants. Cependant, leurs performances en termes de vraisemblance de test et de qualité des échantillons générés ont été dépassées par les modèles autorégressifs sans unités stochastiques. De plus, les modèles basés sur les flux (flow-based models) ont récemment été montrés comme une alternative attrayante qui s'adapte bien aux données de haute dimension. Dans cet article, nous comblons le fossé des performances en construisant des modèles VAE capables d'utiliser efficacement une hiérarchie profonde de variables stochastiques et de modéliser des structures de covariance complexes. Nous introduisons l'Auto-Encodeur Variationnel à Inférence Bidirectionnelle (BIVA), caractérisé par un modèle génératif avec des connexions sauteuses (skip-connected) et un réseau d'inférence formé par un chemin d'inférence stochastique bidirectionnel. Nous montrons que BIVA atteint des vraisemblances de test de pointe, génère des images naturelles nettes et cohérentes, et utilise la hiérarchie des variables latentes pour capturer différents aspects de la distribution des données. Nous constatons que, contrairement aux résultats récents, BIVA peut être utilisé pour la détection d'anomalies. Nous attribuons cela à la hiérarchie des variables latentes qui est capable d'extraire des caractéristiques sémantiques de haut niveau. Enfin, nous étendons BIVA aux tâches de classification semi-supervisée et montrons qu'il performe aussi bien que les résultats de pointe obtenus par les réseaux adversaires générateurs.