NVAE: Ein Tiefes Hierarchisches Variational Autoencoder

Normale Flüsse, autoregressive Modelle, Variational Autoencoder (VAEs) und tiefe energiebasierte Modelle gehören zu den konkurrierenden, wahrscheinlichkeitsbasierten Rahmenwerken für tiefes generatives Lernen. Unter diesen haben VAEs den Vorteil schneller und handhabbarer Stichprobenziehung sowie leicht zugänglicher Kodierungsnetzwerke. Sie werden jedoch derzeit von anderen Modellen wie normalisierenden Flüssen und autoregressiven Modellen übertroffen. Während der Großteil der Forschung zu VAEs sich auf statistische Herausforderungen konzentriert, verfolgen wir hier eine orthogonale Richtung: die sorgfältige Gestaltung neuronaler Architekturen für hierarchische VAEs. Wir stellen NVAE (Nouveau VAE) vor, einen tiefen hierarchischen VAE, der für die Bildgenerierung mit depth-wise separablen Faltungen und Batch-Normalisierung konstruiert wurde. NVAE verfügt über eine Residual-Parameterisierung von Normalverteilungen, und sein Training wird durch Spektralregularisierung stabilisiert. Wir zeigen, dass NVAE auf den Datensätzen MNIST, CIFAR-10, CelebA 64 und CelebA HQ die derzeit besten Ergebnisse unter nicht-autoregressiven, wahrscheinlichkeitsbasierten Modellen erzielt und eine starke Basislinie für FFHQ liefert. Beispielsweise verbessert NVAE auf CIFAR-10 die bisher beste Leistung von 2,98 auf 2,91 Bit pro Dimension und generiert hochwertige Bilder auf CelebA HQ. Soweit uns bekannt ist, ist NVAE das erste erfolgreiche VAE-Modell, das auf natürliche Bilder mit einer Größe von bis zu 256×256 Pixeln angewendet wurde. Der Quellcode ist unter https://github.com/NVlabs/NVAE verfügbar.