HyperAIHyperAI
vor 17 Tagen

VAEBM: Eine Symbiose zwischen Variationalen Autoencodern und energiebasierten Modellen

Zhisheng Xiao, Karsten Kreis, Jan Kautz, Arash Vahdat
VAEBM: Eine Symbiose zwischen Variationalen Autoencodern und energiebasierten Modellen
Abstract

Energiebasierte Modelle (Energy-Based Models, EBMs) haben in letzter Zeit Erfolg bei der Darstellung komplexer Verteilungen kleiner Bilder gezeigt. Die Probenahme aus solchen Modellen erfordert jedoch aufwändige Markov-Ketten-Monte-Carlo-(MCMC-)Iterationen, die in hochdimensionalen Pixelräumen langsam konvergieren. Im Gegensatz zu EBMs generieren Variational Autoencoder (VAEs) Proben schnell und verfügen über einen latenten Raum, der eine effiziente Durchquerung der Datensmannigfaltigkeit ermöglicht. Allerdings neigen VAEs dazu, hohe Wahrscheinlichkeitsdichten in Regionen des Daterraums zuzuweisen, die außerhalb der tatsächlichen Datensverteilung liegen, und erzeugen oft unscharfe Bilder. In diesem Artikel präsentieren wir VAEBM, eine symbiotische Kombination aus VAE und EBM, die die Vorzüge beider Ansätze vereint. VAEBM nutzt einen modernen VAE, um die globale Modenstruktur der Datensverteilung zu erfassen, und stützt sich dabei auf seinen EBM-Teil, um explizit Bereiche, die nicht datenähnlich sind, aus dem Modell auszuschließen und die Bildproben zu verfeinern. Darüber hinaus ermöglicht der VAE-Anteil in VAEBM eine Beschleunigung der MCMC-Updates durch Reparameterisierung im latenten Raum des VAE. Unsere experimentellen Ergebnisse zeigen, dass VAEBM auf mehreren Benchmark-Bild-Datensätzen die generative Qualität gegenüber state-of-the-art-VAEs und EBMs deutlich übertrifft. Es kann hochwertige Bilder mit bis zu 256×256 Pixeln mit kurzen MCMC-Ketten erzeugen. Zudem demonstrieren wir, dass VAEBM eine vollständige Abdeckung der Moden bietet und gut in der Erkennung von außerhalb der Verteilung liegenden Daten (out-of-distribution detection) abschneidet. Der Quellcode ist unter https://github.com/NVlabs/VAEBM verfügbar.