TransGAN: Zwei reine Transformers können eine starke GAN erzeugen, und das lässt sich skalieren

Die jüngste explosive Entwicklung rund um Transformers hat deren Potenzial als leistungsstarke „universelle“ Modelle für Aufgaben im Bereich des maschinellen Sehens deutlich gemacht, wie beispielsweise Klassifikation, Detektion und Segmentierung. Während bisherige Ansätze sich hauptsächlich auf diskriminative Modelle konzentrierten, untersuchen wir in diesem Werk die Anwendung von Transformers bei besonders herausfordernden, generativen Aufgaben im Bereich der Bildverarbeitung, wie beispielsweise Generative Adversarial Networks (GANs). Ziel unserer Arbeit ist es, die erste Pilotstudie zur Entwicklung einer GAN durchzuführen, die komplett auf Faltung (Convolution) verzichtet und ausschließlich auf rein transformerbasierten Architekturen basiert. Unser grundlegender GAN-Aufbau, der als TransGAN bezeichnet wird, besteht aus einem speicherfreundlichen, transformerbasierten Generator, der schrittweise die räumliche Auflösung der Merkmale erhöht, sowie einem mehrskaligen Diskriminator, der gleichzeitig semantische Kontexte und niedrigstufige Texturen erfassen kann. Ergänzend führen wir eine neue Komponente namens Grid-Self-Attention ein, um die Speicherbeschränkungen weiter zu verringern und TransGAN somit auf die Generierung hochauflösender Bilder zu skalieren. Zudem entwickeln wir eine spezifische Trainingsstrategie, die eine Reihe von Techniken umfasst, um die Instabilität des Trainingsprozesses von TransGAN zu mildern, darunter Datenaugmentation, modifizierte Normalisierung und relative Positions-Kodierung. Unser bestes Modell erreicht eine Leistung, die mit den derzeit führenden GANs mit convolutionaler Architektur konkurrieren kann. Insbesondere erzielt TransGAN auf dem Datensatz STL-10 einen neuen SOTA-Inception-Score von 10,43 und einen FID-Wert von 18,28 – dies übertrifft sogar StyleGAN-V2. Bei hochauflösenden Aufgaben (z. B. 256×256), wie beispielsweise auf CelebA-HQ und LSUN-Church, produziert TransGAN weiterhin vielfältige visuelle Beispiele mit hoher Fidelität und beeindruckenden Details in den Texturen. Zudem untersuchen wir tiefgehend die generativen Transformer-basierten Modelle, um zu verstehen, wie sich ihr Verhalten von convolutionalen Modellen unterscheidet, indem wir die Trainingsdynamiken visuell analysieren. Der Quellcode ist unter https://github.com/VITA-Group/TransGAN verfügbar.