vor 17 Tagen

StyleGAN-T: Die Kraft von GANs für schnelle, großskalige Text-zu-Bild-Synthese freigeben

Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila

Abstract

Die Text-zu-Bild-Synthese hat in letzter Zeit erhebliche Fortschritte dank großer vortrainierter Sprachmodelle, umfangreicher Trainingsdaten sowie der Einführung skalierbarer Modellfamilien wie Diffusions- und autoregressive Modelle erzielt. Allerdings erfordern die derzeit leistungsstärksten Modelle eine iterative Bewertung, um ein einzelnes Bild zu generieren. Im Gegensatz dazu benötigen generative adversarische Netzwerke (GANs) lediglich einen einzigen Vorwärtsdurchlauf und sind daher deutlich schneller. Sie bleiben jedoch derzeit deutlich hinter dem Stand der Technik bei der großskaligen Text-zu-Bild-Synthese zurück. Dieser Artikel zielt darauf ab, die notwendigen Schritte zu identifizieren, um die Wettbewerbsfähigkeit von GANs wiederherzustellen. Unser vorgestelltes Modell, StyleGAN-T, berücksichtigt spezifische Anforderungen der großskaligen Text-zu-Bild-Synthese, wie beispielsweise hohe Kapazität, stabile Trainingsstabilität auf vielfältigen Datensätzen, starke Textausrichtung sowie einen kontrollierbaren Kompromiss zwischen Variationskontrolle und Textausrichtung. StyleGAN-T übertrifft erheblich frühere GANs und erreicht in Bezug auf Bildqualität und Geschwindigkeit sogar die bisherige State-of-the-Art-Methode – abgeleitete Diffusionsmodelle – bei der schnellen Text-zu-Bild-Synthese.