MaskGIT : Transformateur Générateur d'Images Masquées

Les transformateurs génératifs ont connu une croissance rapide en popularité au sein de la communauté de vision par ordinateur pour la synthèse d'images de haute fidélité et haute résolution. Cependant, les meilleurs modèles de transformateurs génératifs actuels traitent encore naïvement une image comme une séquence de jetons et décodent l'image de manière séquentielle en suivant l'ordre de balayage raster (c'est-à-dire ligne par ligne). Nous trouvons que cette stratégie n'est ni optimale ni efficace. Cet article propose un nouveau paradigme de synthèse d'images utilisant un décodeur de transformateur bidirectionnel, que nous appelons MaskGIT. Pendant l'entraînement, MaskGIT apprend à prédire des jetons masqués aléatoirement en s'appuyant sur des jetons dans toutes les directions. Lors de l'inférence, le modèle commence par générer simultanément tous les jetons d'une image, puis affine progressivement l'image en se basant sur la génération précédente. Nos expériences montrent que MaskGIT dépasse significativement le meilleur modèle de transformateur actuel sur le jeu de données ImageNet et accélère le décodage autoregressif jusqu'à 64 fois. De plus, nous illustrons que MaskGIT peut être facilement étendu à diverses tâches d'édition d'images, telles que le remplissage (inpainting), l'extrapolation et la manipulation d'images.