HyperAIHyperAI
il y a 2 mois

Réseaux d'Inférence Retardés et Effondrement Postérieur dans les Autoencodeurs Variationnels

Junxian He; Daniel Spokoyny; Graham Neubig; Taylor Berg-Kirkpatrick
Réseaux d'Inférence Retardés et Effondrement Postérieur dans les Autoencodeurs Variationnels
Résumé

L'autoencodeur variationnel (VAE) est une combinaison populaire de modèle à variables latentes profondes et de la technique d'apprentissage variationnelle qui l'accompagne. En utilisant un réseau neuronal d'inférence pour approximer la distribution a posteriori du modèle sur les variables latentes, les VAE paramètrent efficacement une borne inférieure sur la vraisemblance marginale des données, qui peut être optimisée directement par des méthodes de gradient. Cependant, en pratique, l'entraînement des VAE aboutit souvent à un optimum local dégénéré connu sous le nom de « collapse a posteriori » où le modèle apprend à ignorer la variable latente et la distribution a posteriori approximative imite la distribution a priori. Dans cet article, nous examinons le collapse a posteriori sous l'angle de la dynamique d'entraînement. Nous constatons que pendant les premiers stades de l'entraînement, le réseau d'inférence échoue à approximer la véritable distribution a posteriori du modèle, qui est une cible mobile. Par conséquent, le modèle est incité à ignorer l'encodage latent et le collapse a posteriori se produit. Sur la base de cette observation, nous proposons une modification extrêmement simple de l'entraînement des VAE pour réduire le retard d'inférence : en fonction de l'information mutuelle actuelle entre la variable latente et l'observation, nous optimisons agressivement le réseau d'inférence avant chaque mise à jour du modèle. Bien que notre approche n'introduise ni de nouveaux composants du modèle ni une complexité significative par rapport aux VAE basiques, elle est capable d'éviter le problème de collapse qui a longtemps affecté un grand nombre de travaux précédents. Expérimentalement, notre approche surpasse des bases autoregressives solides sur des benchmarks textuels et visuels en termes de vraisemblance hors échantillon, et elle est compétitive avec des techniques plus complexes pour éviter le collapse tout en étant considérablement plus rapide.