il y a 17 jours

StyleGAN-T : Déverrouiller le pouvoir des GAN pour une synthèse texte-image rapide à grande échelle

Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila

Résumé

La synthèse d’images à partir de texte a récemment connu des progrès significatifs grâce aux grands modèles linguistiques préentraînés, aux grandes quantités de données d’entraînement à grande échelle, ainsi qu’à l’introduction de familles de modèles évolutives telles que les modèles de diffusion et les modèles autorégressifs. Toutefois, les meilleurs modèles actuels nécessitent une évaluation itérative pour générer une seule image, ce qui les rend coûteux en temps. En revanche, les réseaux antagonistes génératifs (GAN) n’exigent qu’un seul passage avant vers l’avant, ce qui les rend bien plus rapides. Pourtant, ils restent actuellement largement en retard par rapport à l’état de l’art dans la synthèse d’images à grande échelle à partir de texte. Ce papier vise à identifier les étapes nécessaires pour retrouver leur compétitivité. Notre modèle proposé, StyleGAN-T, répond aux exigences spécifiques de la synthèse d’images à grande échelle à partir de texte, notamment une grande capacité, une formation stable sur des jeux de données diversifiés, une forte alignement avec le texte, ainsi qu’un bon compromis contrôlable entre variation et alignement textuel. StyleGAN-T représente une amélioration notable par rapport aux GAN précédents et dépasse même les modèles de diffusion distillés – l’état de l’art précédent dans la synthèse rapide d’images à partir de texte – en termes de qualité des échantillons et de vitesse.