StyleSwin: Transformer-basiertes GAN für die Generierung von Bildern hoher Auflösung

Trotz der verlockenden Erfolge bei einer Vielzahl von visuellen Aufgaben haben Transformers bisher nicht die gleiche Leistungsfähigkeit wie ConvNets im Bereich der generativen Modellierung hochauflösender Bilder demonstriert. In diesem Paper untersuchen wir, wie reine Transformers eingesetzt werden können, um ein generatives adversarisches Netzwerk (GAN) für die Synthese hochauflösender Bilder zu entwickeln. Dazu halten wir lokale Aufmerksamkeit für entscheidend, um ein Gleichgewicht zwischen rechnerischer Effizienz und Modellkapazität zu erreichen. Daher verwendet der vorgeschlagene Generator die Swin-Transformer-Architektur in einer stilbasierten Struktur. Um einen größeren Empfindungsfeld (receptive field) zu erzielen, führen wir eine doppelte Aufmerksamkeit ein, die gleichzeitig den Kontext lokaler und verschobener Fenster nutzt, was zu einer verbesserten Generationsqualität führt. Darüber hinaus zeigen wir, dass die Wiedergewinnung der absoluten Positionsinformation – die in fensterbasierten Transformers verloren geht – die Generationsqualität erheblich verbessert. Der vorgeschlagene StyleSwin ist skalierbar auf hohe Auflösungen, wobei sowohl die groben Geometrien als auch feine Strukturen von der hohen Ausdruckskraft der Transformer profitieren. Allerdings treten Blockartefakte bei der Synthese hochauflösender Bilder auf, da die blockweise Anwendung lokaler Aufmerksamkeit die räumliche Kohärenz stören kann. Um dieses Problem zu lösen, untersuchen wir empirisch verschiedene Lösungsansätze und finden, dass die Verwendung eines Wellenlet-Discriminators zur Analyse spektraler Diskrepanzen die Artefakte effektiv unterdrückt. Ausführliche Experimente zeigen die Überlegenheit gegenüber vorherigen transformerbasierten GANs, insbesondere bei hohen Auflösungen wie 1024×1024. StyleSwin erreicht ohne komplizierte Trainingsstrategien eine bessere Leistung als StyleGAN auf CelebA-HQ 1024 und erzielt eine vergleichbare Performance auf FFHQ-1024, was das Potenzial von Transformers für die generative Modellierung hochauflösender Bilder belegt. Der Quellcode und die Modelle werden unter https://github.com/microsoft/StyleSwin veröffentlicht.