Verbesserter Transformer für Hochauflösende GANs

Aufmerksamkeitsbasierte Modelle, exemplarisch der Transformer, können langfristige Abhängigkeiten effektiv modellieren, leiden jedoch unter der quadratischen Komplexität der Selbst-Attention-Operation, was ihre Anwendung bei der Generierung hochauflösender Bilder auf Basis von Generativen adversarialen Netzwerken (GANs) erschwert. In diesem Paper stellen wir zwei zentrale Erweiterungen für den Transformer vor, um diese Herausforderung zu bewältigen. Erstens ersetzen wir in den niedrigauflösenden Stufen des Generierungsprozesses die herkömmliche globale Selbst-Attention durch die vorgeschlagene multi-achsig blockierte Selbst-Attention, die eine effiziente Kombination lokaler und globaler Aufmerksamkeit ermöglicht. Zweitens entfallen in den hochauflösenden Stufen die Selbst-Attention-Operationen vollständig, wobei lediglich mehrschichtige Perzeptronen verbleiben, die an die implizite neuronale Funktion erinnern. Um die Leistung weiter zu steigern, führen wir zusätzlich eine selbstmodulierende Komponente basierend auf Kreuz-Attention ein. Das resultierende Modell, bezeichnet als HiT, weist eine nahezu lineare Rechenkomplexität bezüglich der Bildgröße auf und skaliert somit direkt auf die Synthese von hochauflösenden Bildern. In den Experimenten zeigen wir, dass das vorgeschlagene HiT sowohl auf unconditional ImageNet $128 \times 128$ als auch auf FFHQ $256 \times 256$ state-of-the-art FID-Scores von 30,83 bzw. 2,95 erreicht, wobei eine vernünftige Durchsatzleistung gewährleistet ist. Wir sind überzeugt, dass HiT einen wichtigen Meilenstein für Generatoren in GANs darstellt, die vollständig ohne Faltungen auskommen. Der Quellcode ist öffentlich unter https://github.com/google-research/hit-gan verfügbar.