Generative Adversarial Transformers

Wir stellen den GANformer vor, eine neuartige und effiziente Transformer-Architektur, die für die Aufgabe der visuellen generativen Modellierung untersucht wird. Das Netzwerk nutzt eine bipartite Struktur, die langreichweitige Wechselwirkungen innerhalb des Bildes ermöglicht, während gleichzeitig eine lineare Rechenkomplexität beibehalten wird, was eine nahtlose Skalierung auf hochauflösende Synthese erlaubt. Es propagiert iterativ Informationen zwischen einem Satz latenten Variablen und den sich entwickelnden visuellen Merkmalen in beide Richtungen, um die Verbesserung beider Komponenten aufgrund der gegenseitigen Beeinflussung zu unterstützen und die Entstehung kompositorischer Darstellungen von Objekten und Szenen zu fördern. Im Gegensatz zur klassischen Transformer-Architektur verwendet der GANformer eine multiplikative Integration, die eine flexible, regionenbasierte Modulation ermöglicht und den Ansatz somit als Verallgemeinerung des erfolgreichen StyleGAN-Netzwerks interpretieren lässt. Wir demonstrieren die Stärke und Robustheit des Modells durch eine sorgfältige Evaluation an einer Vielzahl von Datensätzen – von simulierten Multi-Objekt-Umgebungen bis hin zu reichhaltigen realen Innen- und Außenräumen – wobei gezeigt wird, dass das Modell state-of-the-art Ergebnisse hinsichtlich Bildqualität und Vielfalt erzielt, gleichzeitig jedoch schneller lernt und eine bessere Dateneffizienz aufweist. Zusätzliche qualitative und quantitative Experimente ermöglichen Einblicke in die internen Funktionsmechanismen des Modells und offenbaren eine verbesserte Interpretierbarkeit sowie eine stärkere Entkoppelung (disentanglement), was die Vorteile und Wirksamkeit unseres Ansatzes unterstreicht. Eine Implementierung des Modells ist unter https://github.com/dorarad/gansformer verfügbar.