HyperAIHyperAI

Command Palette

Search for a command to run...

StyleGAN-T : Déverrouiller le pouvoir des GAN pour une synthèse texte-image rapide à grande échelle

Axel Sauer Tero Karras Samuli Laine Andreas Geiger Timo Aila

Résumé

La synthèse d’images à partir de texte a récemment connu des progrès significatifs grâce aux grands modèles linguistiques préentraînés, aux grandes quantités de données d’entraînement à grande échelle, ainsi qu’à l’introduction de familles de modèles évolutives telles que les modèles de diffusion et les modèles autorégressifs. Toutefois, les meilleurs modèles actuels nécessitent une évaluation itérative pour générer une seule image, ce qui les rend coûteux en temps. En revanche, les réseaux antagonistes génératifs (GAN) n’exigent qu’un seul passage avant vers l’avant, ce qui les rend bien plus rapides. Pourtant, ils restent actuellement largement en retard par rapport à l’état de l’art dans la synthèse d’images à grande échelle à partir de texte. Ce papier vise à identifier les étapes nécessaires pour retrouver leur compétitivité. Notre modèle proposé, StyleGAN-T, répond aux exigences spécifiques de la synthèse d’images à grande échelle à partir de texte, notamment une grande capacité, une formation stable sur des jeux de données diversifiés, une forte alignement avec le texte, ainsi qu’un bon compromis contrôlable entre variation et alignement textuel. StyleGAN-T représente une amélioration notable par rapport aux GAN précédents et dépasse même les modèles de diffusion distillés – l’état de l’art précédent dans la synthèse rapide d’images à partir de texte – en termes de qualité des échantillons et de vitesse.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp