HyperAIHyperAI
vor 17 Tagen

StyleGAN-XL: Skalierung von StyleGAN auf große und vielfältige Datensätze

Axel Sauer, Katja Schwarz, Andreas Geiger
StyleGAN-XL: Skalierung von StyleGAN auf große und vielfältige Datensätze
Abstract

Die Computergrafik hat in letzter Zeit einen starken Aufschwung datengetriebener Ansätze für die Erstellung photorealistischer und kontrollierbarer Inhalte erlebt. Insbesondere StyleGAN setzt neue Maßstäbe für generative Modelle hinsichtlich Bildqualität und Kontrollierbarkeit. Allerdings verschlechtert sich die Leistung von StyleGAN erheblich auf großen, unstrukturierten Datensätzen wie ImageNet. StyleGAN wurde ursprünglich für hohe Kontrollierbarkeit entworfen; daher vermuten frühere Arbeiten, dass dessen restriktiver Architekturansatz für vielfältige Datensätze ungeeignet sei. Im Gegensatz dazu identifizieren wir den Hauptlimitierungs faktor als die derzeitige Trainingsstrategie. Unter Anwendung des kürzlich vorgestellten Projected GAN-Paradigmas nutzen wir leistungsstarke neuronale Netzwerk-Priorisierungen sowie eine progressiv wachsende Trainingsstrategie, um den neuesten StyleGAN3-Generator erfolgreich auf ImageNet zu trainieren. Unser endgültiges Modell, StyleGAN-XL, erreicht eine neue State-of-the-Art-Leistung bei der großskaligen Bildsynthese und ist das erste Modell, das Bilder in einer Auflösung von $1024^2$ auf einer solchen Datensatzausdehnung generiert. Wir zeigen, dass dieses Modell die Inversion und Bearbeitung von Bildern über den engen Bereich von Porträts oder spezifischen Objektklassen hinaus ermöglicht.