HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserter Transformer für Hochauflösende GANs

Long Zhao Zizhao Zhang Ting Chen Dimitris N. Metaxas Han Zhang

Zusammenfassung

Aufmerksamkeitsbasierte Modelle, exemplarisch der Transformer, können langfristige Abhängigkeiten effektiv modellieren, leiden jedoch unter der quadratischen Komplexität der Selbst-Attention-Operation, was ihre Anwendung bei der Generierung hochauflösender Bilder auf Basis von Generativen adversarialen Netzwerken (GANs) erschwert. In diesem Paper stellen wir zwei zentrale Erweiterungen für den Transformer vor, um diese Herausforderung zu bewältigen. Erstens ersetzen wir in den niedrigauflösenden Stufen des Generierungsprozesses die herkömmliche globale Selbst-Attention durch die vorgeschlagene multi-achsig blockierte Selbst-Attention, die eine effiziente Kombination lokaler und globaler Aufmerksamkeit ermöglicht. Zweitens entfallen in den hochauflösenden Stufen die Selbst-Attention-Operationen vollständig, wobei lediglich mehrschichtige Perzeptronen verbleiben, die an die implizite neuronale Funktion erinnern. Um die Leistung weiter zu steigern, führen wir zusätzlich eine selbstmodulierende Komponente basierend auf Kreuz-Attention ein. Das resultierende Modell, bezeichnet als HiT, weist eine nahezu lineare Rechenkomplexität bezüglich der Bildgröße auf und skaliert somit direkt auf die Synthese von hochauflösenden Bildern. In den Experimenten zeigen wir, dass das vorgeschlagene HiT sowohl auf unconditional ImageNet 128×128128 \times 128128×128 als auch auf FFHQ 256×256256 \times 256256×256 state-of-the-art FID-Scores von 30,83 bzw. 2,95 erreicht, wobei eine vernünftige Durchsatzleistung gewährleistet ist. Wir sind überzeugt, dass HiT einen wichtigen Meilenstein für Generatoren in GANs darstellt, die vollständig ohne Faltungen auskommen. Der Quellcode ist öffentlich unter https://github.com/google-research/hit-gan verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verbesserter Transformer für Hochauflösende GANs | Paper | HyperAI