Augmentation de la taille des GAN pour la synthèse d’images à partir de texte

La récente réussite de la synthèse d’images à partir de texte a bouleversé le monde et captivé l’imagination du grand public. Du point de vue technique, elle a également marqué un changement radical dans l’architecture privilégiée pour concevoir des modèles génératifs d’images. Les réseaux antagonistes génératifs (GAN) étaient autrefois le choix de référence, illustrés par des techniques telles que StyleGAN. Avec DALL-E 2, les modèles auto-régressifs et les modèles de diffusion sont devenus, du jour au lendemain, la nouvelle norme pour les modèles génératifs à grande échelle. Ce changement rapide soulève une question fondamentale : pouvons-nous étendre les GAN à une échelle suffisante pour tirer parti de grands jeux de données comme LAION ? Nous constatons qu’augmenter naïvement la capacité de l’architecture StyleGAN conduit rapidement à une instabilité. Nous introduisons GigaGAN, une nouvelle architecture GAN qui dépasse largement cette limite, démontrant ainsi que les GAN restent une option viable pour la synthèse d’images à partir de texte. GigaGAN présente trois avantages majeurs. Premièrement, il est d’un ordre de grandeur plus rapide en phase d’inférence, ne nécessitant que 0,13 seconde pour générer une image de 512 pixels. Deuxièmement, il permet la génération d’images à haute résolution, par exemple une image de 16 mégapixels en seulement 3,66 secondes. Enfin, GigaGAN prend en charge diverses applications d’édition dans l’espace latent, telles que l’interpolation latente, le mélange de styles et les opérations arithmétiques vectorielles.