Effiziente generative adversariale Netzwerke unter Verwendung von linearen additiven Aufmerksamkeits-Transformern

Obwohl die Fähigkeit tiefgehender generativer Modelle zur Bildgenerierung – wie Diffusionsmodelle (DMs) und Generative Adversarial Networks (GANs) – in den letzten Jahren erheblich gestiegen ist, ist ein Großteil ihres Erfolgs auf rechenintensive Architekturen zurückzuführen. Dies hat ihre Anwendung und Nutzung auf Forschungslabore und Unternehmen mit umfangreichen Ressourcen beschränkt und gleichzeitig die Kohlenstoffbilanz bei Training, Feinabstimmung und Inferenz erheblich erhöht. In dieser Arbeit stellen wir eine neuartige GAN-Architektur vor, die wir LadaGAN nennen. Diese Architektur basiert auf einem linearen Aufmerksamkeits-Transformer-Block namens Ladaformer. Der zentrale Bestandteil dieses Blocks ist eine lineare additive Aufmerksamkeitsmechanik, die anstelle des quadratischen Punktprodukt-Aufmerksamkeitsmechanismus pro Kopf lediglich einen einzigen Aufmerksamkeitsvektor berechnet. Wir setzen Ladaformer sowohl im Generator als auch im Diskriminator ein, wodurch die rechnerische Komplexität reduziert und die bei Transformer-GANs häufig auftretenden Trainingsinstabilitäten überwunden werden. LadaGAN erzielt konsistent bessere Ergebnisse als bestehende konvolutionale und Transformer-basierte GANs auf Benchmark-Datensätzen bei unterschiedlichen Auflösungen, während sie erheblich effizienter ist. Zudem zeigt LadaGAN gegenüber state-of-the-art-Mehr-Schritt-Generativmodellen (z. B. DMs) konkurrenzfähige Leistung, wobei sie dabei um Größenordnungen weniger rechnerische Ressourcen benötigt.