HyperAIHyperAI

Command Palette

Search for a command to run...

MaskGIT : Transformateur Générateur d'Images Masquées

Huiwen Chang Han Zhang Lu Jiang Ce Liu* William T. Freeman

Résumé

Les transformateurs génératifs ont connu une croissance rapide en popularité au sein de la communauté de vision par ordinateur pour la synthèse d'images de haute fidélité et haute résolution. Cependant, les meilleurs modèles de transformateurs génératifs actuels traitent encore naïvement une image comme une séquence de jetons et décodent l'image de manière séquentielle en suivant l'ordre de balayage raster (c'est-à-dire ligne par ligne). Nous trouvons que cette stratégie n'est ni optimale ni efficace. Cet article propose un nouveau paradigme de synthèse d'images utilisant un décodeur de transformateur bidirectionnel, que nous appelons MaskGIT. Pendant l'entraînement, MaskGIT apprend à prédire des jetons masqués aléatoirement en s'appuyant sur des jetons dans toutes les directions. Lors de l'inférence, le modèle commence par générer simultanément tous les jetons d'une image, puis affine progressivement l'image en se basant sur la génération précédente. Nos expériences montrent que MaskGIT dépasse significativement le meilleur modèle de transformateur actuel sur le jeu de données ImageNet et accélère le décodage autoregressif jusqu'à 64 fois. De plus, nous illustrons que MaskGIT peut être facilement étendu à diverses tâches d'édition d'images, telles que le remplissage (inpainting), l'extrapolation et la manipulation d'images.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp