Hohe-Qualitäts-Bilder generieren mit Subskalen-Pixelnetzwerken und mehrdimensionaler Aufskalierung

Die bedingungslose Generierung hochauflösender Bilder ist seit langem ein Maßstab zur Überprüfung der Leistungsfähigkeit von Bilddekodern. Autoregressive Bildmodelle konnten bedingungslos kleine Bilder generieren, jedoch blieb die Erweiterung dieser Methoden auf große Bilder, bei denen die Treue zum Original leichter bewertet werden kann, ein offenes Problem. Zu den größten Herausforderungen gehören die Fähigkeit, den umfangreichen vorherigen Kontext zu kodieren, und die reine Schwierigkeit, eine Verteilung zu lernen, die sowohl globale semantische Kohärenz als auch die Genauigkeit der Details gewährleistet. Um die erste Herausforderung anzugehen, schlagen wir das Subscale Pixel Network (SPN) vor, eine konditionale Dekodierarchitektur, die ein Bild als Sequenz gleichgroßer Teilbilder generiert. Das SPN erfasst kompakt räumliche Abhängigkeiten über das gesamte Bild und benötigt nur einen Bruchteil des Speichers und der Berechnungen, die andere voll autoregressive Modelle erfordern. Um die zweite Herausforderung zu bewältigen, schlagen wir vor, Multidimensionales Upscaling zu verwenden, um ein Bild sowohl in Größe als auch in Tiefe durch Zwischenschritte mit unterschiedlichen SPNs zu vergrößern. Wir evaluieren SPNs anhand der bedingungslosen Generierung von CelebAHQ im Format 256x256 und von ImageNet in Formaten von 32x32 bis 256x256. In mehreren Szenarien erzielen wir Stand-of-the-Art-Likelihood-Ergebnisse, legen neue Benchmark-Ergebnisse in bisher unerforschten Szenarien fest und können auf Basis beider Datensätze sehr hochauflösende Großformat-Proben generieren.