Styleformer: Transformer-basierte generative adversariale Netzwerke mit Stilvektor

Wir stellen Styleformer vor, einen stilbasierten Generator für GAN-Architekturen, der jedoch auf einem convolutionsfreien Transformer basiert. In unserer Arbeit erklären wir, wie ein Transformer hochwertige Bilder generieren kann, wodurch der Nachteil überwunden wird, dass Faltungsoperationen Schwierigkeiten haben, globale Merkmale in Bildern zu erfassen. Zudem modifizieren wir die Demodulation von StyleGAN2 und passen die bestehende Transformer-Architektur (z. B. Residual-Verbindungen, Layer-Normalisierung) an, um einen leistungsfähigen, stilbasierten Generator mit convolutionsfreier Struktur zu schaffen. Durch die Anwendung von Linformer machen wir Styleformer zudem leichter, wodurch er Bilder mit höherer Auflösung generieren kann und gleichzeitig Verbesserungen hinsichtlich Geschwindigkeit und Speicherverbrauch erzielt. Wir testen Styleformer an Datensätzen mit niedriger Auflösung wie CIFAR-10 sowie an Datensätzen mit hoher Auflösung wie LSUN-church. Auf dem Benchmark-Datensatz CIFAR-10 erreicht Styleformer eine FID von 2,82 und eine IS von 9,94, was Leistungsmerkmale auf dem Niveau der aktuellen State-of-the-Art darstellt und alle bisherigen GAN-basierten Generativmodelle, einschließlich StyleGAN2-ADA, bei weniger Parametern im unbedingten Fall übertrifft. Zudem erreichen wir neue State-of-the-Art-Werte mit einer FID von 15,17 und einer IS von 11,01 auf STL-10 sowie einer FID von 3,66 auf CelebA. Wir stellen unseren Code unter https://github.com/Jeeseung-Park/Styleformer zur Verfügung.