Prévenir l'effondrement postérieur avec les delta-VAEs

En raison du phénomène de « collapse postérieur », les modèles génératifs actuels à variables latentes posent un choix de conception difficile qui consiste soit à réduire la capacité du décodeur, soit à augmenter l'objectif afin qu'il ne se contente pas uniquement de maximiser la vraisemblance des données. Dans cet article, nous proposons une alternative qui utilise les modèles génératifs les plus puissants comme décodeurs, tout en optimisant la borne inférieure variationnelle et en garantissant que les variables latentes conservent et codent des informations utiles. Nos $\delta$-VAEs (Variational Autoencoders) atteignent cet objectif en imposant une contrainte sur la famille variationnelle pour le postérieur, afin qu'elle maintienne une distance minimale par rapport au prior. Pour les modèles à variables latentes séquentielles, notre approche ressemble à celle de l'analyse de caractéristiques lentes (slow feature analysis), une méthode classique d'apprentissage de représentations. Nous démontrons l'efficacité de notre approche dans la modélisation du texte sur le corpus LM1B et dans la modélisation d'images : apprentissage de représentations, amélioration de la qualité des échantillons, et obtention d'un record de vraisemblance logarithmique sur CIFAR-10 et ImageNet $32 \times 32$.