Parallele Multiskalen-Autoregressive Dichteabschätzung

PixelCNN erzielt Stand der Technik ergebende Resultate bei der Dichteabschätzung für natürliche Bilder. Obwohl das Training schnell ist, ist die Inferenz aufwendig und erfordert eine Netzwerkauswertung pro Pixel; O(N) für N Pixel. Dies kann durch Zwischenspeichern von Aktivierungen beschleunigt werden, beinhaltet jedoch immer noch die sequenzielle Generierung jedes Pixels. In dieser Arbeit schlagen wir ein parallelisierbares PixelCNN vor, das durch Modellierung bestimmter Pixelgruppen als bedingt unabhängig eine effizientere Inferenz ermöglicht. Unser neues PixelCNN-Modell erreicht wettbewerbsfähige Dichteabschätzungen und Beschleunigungen um mehrere Größenordnungen – O(log N) Stichprobenziehung anstelle von O(N) – was die praktische Generierung von 512x512-Bildern ermöglicht. Wir evaluieren das Modell bei klassenbedingter Bildgenerierung, Text-zu-Bild-Synthese und aktionsbedingter Videogenerierung und zeigen, dass unser Modell unter den nicht-pixel-autoregressiven Dichtemodellen, die eine effiziente Stichprobenziehung zulassen, die besten Ergebnisse erzielt.