HyperAIHyperAI
vor 17 Tagen

Skalierung von GANs für die Text-zu-Bild-Synthese

Minguk Kang, Jun-Yan Zhu, Richard Zhang, Jaesik Park, Eli Shechtman, Sylvain Paris, Taesung Park
Skalierung von GANs für die Text-zu-Bild-Synthese
Abstract

Der jüngste Erfolg der Text-zu-Bild-Synthese hat die Welt in Bewegung gesetzt und die Vorstellungskraft der breiten Öffentlichkeit begeistert. Aus technischer Sicht markierte sie auch eine radikale Veränderung der bevorzugten Architektur für die Entwicklung generativer Bildmodelle. GANs (Generative Adversarial Networks) waren lange Zeit die Standardwahl, unterstützt durch Techniken wie StyleGAN. Mit DALL-E 2 etablierten sich autoregressive und Diffusionsmodelle innerhalb kürzester Zeit als neue Norm für große generative Modelle. Diese rasche Entwicklung wirft eine grundlegende Frage auf: Können wir GANs skalieren, um von großen Datensätzen wie LAION zu profitieren? Wir stellen fest, dass eine naive Erhöhung der Kapazität der StyleGAN-Architektur schnell instabil wird. Wir stellen GigaGAN vor, eine neue GAN-Architektur, die diese Grenze weit überschreitet und GANs als praktikable Option für die Text-zu-Bild-Synthese nachweist. GigaGAN bietet drei wesentliche Vorteile: Erstens ist sie um Größenordnungen schneller bei der Inferenz – die Synthese eines 512px-Bildes dauert nur 0,13 Sekunden. Zweitens kann sie hochauflösende Bilder erzeugen, beispielsweise Bilder mit 16 Megapixeln in nur 3,66 Sekunden. Drittens unterstützt GigaGAN verschiedene Anwendungen im latenten Raum, wie Latenten-Interpolation, Stil-Mixing und Vektorarithmetik.