Sehr tiefe VAEs verallgemeinern autoregressive Modelle und können sie auf Bildern übertrumpfen

Wir präsentieren einen hierarchischen VAE, der erstmals Proben schnell generiert und gleichzeitig die Log-Wahrscheinlichkeit von PixelCNN auf allen gängigen natürlichen Bildbenchmarks übertrifft. Wir beobachten zunächst theoretisch, dass VAEs autoregressive Modelle sowie, falls vorhanden, noch schnellere und bessere Modelle darstellen können, sofern sie ausreichend tief sind. Trotz dieser theoretischen Möglichkeit haben autoregressive Modelle historisch gesehen VAEs in Bezug auf die Log-Wahrscheinlichkeit überflügelt. Um zu testen, ob eine unzureichende Tiefe dafür verantwortlich ist, skalieren wir einen VAE auf eine größere stochastische Tiefe als zuvor untersucht und evaluieren ihn anhand der Datensätze CIFAR-10, ImageNet und FFHQ. Im Vergleich zu PixelCNN erreichen diese sehr tiefen VAEs höhere Wahrscheinlichkeiten, verwenden weniger Parameter, generieren Proben tausendfach schneller und lassen sich einfacher auf hochauflösende Bilder anwenden. Qualitative Analysen deuten darauf hin, dass dies darauf zurückzuführen ist, dass der VAE effiziente hierarchische visuelle Darstellungen lernt. Wir stellen unseren Quellcode und die Modelle unter https://github.com/openai/vdvae zur Verfügung.