BIVA: Eine sehr tiefe Hierarchie latenter Variablen für generatives Modellieren

Mit der Einführung des variationellen Autoencoders (VAE) haben wahrscheinlichkeitstheoretische Latenten-Variablen-Modelle als leistungsstarke generative Modelle erneut Aufmerksamkeit erhalten. Allerdings wurden ihre Leistungen hinsichtlich der Testwahrscheinlichkeit und der Qualität der generierten Stichproben von autoregressiven Modellen ohne stochastische Einheiten übertroffen. Zudem haben flussbasierte Modelle kürzlich als attraktive Alternative gezeigt, dass sie sich gut auf hochdimensionale Daten skalieren lassen. In dieser Arbeit schließen wir die Leistungs-Lücke, indem wir VAE-Modelle konstruieren, die eine tiefe Hierarchie von stochastischen Variablen effektiv nutzen und komplexe Kovarianzstrukturen modellieren können. Wir stellen den Bidirektional-Inferenz-Variationellen-Autoencoder (BIVA) vor, der durch ein übersprungskonnektiertes generatives Modell und ein Inferenznetzwerk gekennzeichnet ist, das aus einem bidirektionalen stochastischen Inferenzweg gebildet wird. Wir zeigen, dass BIVA zu Stand-der-Technik-Testwahrscheinlichkeiten führt, scharfe und kohärente natürliche Bilder generiert und die Hierarchie der latenten Variablen verwendet, um verschiedene Aspekte der Datenverteilung zu erfassen. Wir beobachten zudem, dass BIVA im Gegensatz zu jüngsten Ergebnissen für Anomaliedetektion eingesetzt werden kann. Dies führen wir auf die Hierarchie der latenten Variablen zurück, die in der Lage sind, hochwertige semantische Merkmale zu extrahieren. Schließlich erweitern wir BIVA auf halbüberwachte Klassifizierungsaufgaben und zeigen, dass es vergleichbare Leistungen wie Stand-der-Technik-Ergebnisse durch generative adversäre Netze erzielt.