HyperAIHyperAI
vor 2 Monaten

Verzögerte Inferenznetze und Posterior-Zusammenbruch in Variational Autoencoders

Junxian He; Daniel Spokoyny; Graham Neubig; Taylor Berg-Kirkpatrick
Verzögerte Inferenznetze und Posterior-Zusammenbruch in Variational Autoencoders
Abstract

Der variationale Autoencoder (VAE) ist eine weit verbreitete Kombination aus tiefem latentes Variablenmodell und der dazugehörigen variationellen Lernmethode. Durch die Verwendung eines neuronalen Inferenznetzwerks zur Approximation des posterioren Wahrscheinlichkeitsverteilung auf latente Variablen können VAEs eine untere Schranke an der Randwahrscheinlichkeit der Daten effizient parametrisieren, die direkt durch Gradientenmethoden optimiert werden kann. In der Praxis führt jedoch das Training von VAEs oft zu einem degenerierten lokalen Optimum, bekannt als „Posteriorschwund“ (posterior collapse), bei dem das Modell lernt, die latente Variable zu ignorieren und die approximierte Posteriorschätzung dem Prior entspricht. In dieser Arbeit untersuchen wir den Posteriorschwund aus der Perspektive der Trainingsdynamik. Wir stellen fest, dass während der Anfangsstadien des Trainings das Inferenznetzwerk versagt, die wahre Posteriorverteilung des Modells zu approximieren, welche ein bewegliches Ziel darstellt. Als Folge davon wird das Modell dazu ermutigt, die latente Kodierung zu ignorieren, was zum Posteriorschwund führt. Basierend auf dieser Beobachtung schlagen wir eine äußerst einfache Modifikation beim Training von VAEs vor, um den Inferenzverzug zu reduzieren: je nach der aktuellen gegenseitigen Information zwischen latenter Variable und Beobachtung optimieren wir das Inferenznetzwerk intensiv vor jeder Modellaktualisierung. Trotzdem keine neuen Modulkomponenten oder signifikante Komplexität im Vergleich zum grundlegenden VAE eingeführt wurden, ist unser Ansatz in der Lage, das Problem des Schwunds zu vermeiden, das bisherige Arbeiten stark belastet hat. Empirisch übertrifft unser Ansatz starke autoregressive Baseline-Modelle in Text- und Bildbenchmarks hinsichtlich der Likelihood für unbekannte Daten und ist gleichwertig mit komplexeren Techniken zur Vermeidung des Schwunds, wobei er erheblich schneller ist.