HyperAIHyperAI
il y a 17 jours

ImageBART : Contexte bidirectionnel avec diffusion multinomiale pour la synthèse d'images autoregressive

Patrick Esser, Robin Rombach, Andreas Blattmann, Björn Ommer
ImageBART : Contexte bidirectionnel avec diffusion multinomiale pour la synthèse d'images autoregressive
Résumé

Les modèles autoregressifs et leur factorisation séquentielle de la vraisemblance des données ont récemment fait preuve d’un grand potentiel pour la représentation et la synthèse d’images. Toutefois, ils intègrent le contexte image dans un ordre linéaire unidimensionnel, en ne prenant en compte que les patches d’image déjà synthétisés situés au-dessus ou à gauche. Ce biais séquentiel unidirectionnel est non seulement artificiel pour les images, car il ignore de grandes parties d’une scène jusqu’à ce que la synthèse soit presque terminée, mais il traite également toute l’image à une seule échelle, négligeant ainsi toute information contextuelle plus globale, allant jusqu’au sens général de la scène entière. À titre de remède, nous introduisons une hiérarchie de contexte de grossier à fin en combinant la formulation autoregressive avec un processus de diffusion multinomial : alors qu’un processus de diffusion multistade élimine progressivement des informations pour assombrir une image, nous entraînons une chaîne de Markov (courte) pour inverser ce processus. À chaque étape, le modèle autoregressif ImageBART ainsi obtenu incorpore progressivement, de manière hiérarchique de grossier à fin, le contexte des étapes précédentes. Des expériences montrent une amélioration significative des capacités de modification d’images par rapport aux modèles autoregressifs classiques, tout en assurant une génération d’images de haute fidélité, grâce à une entraînement efficace dans un espace latent compressé. En particulier, notre approche peut intégrer des masques fournis librement par l’utilisateur afin de réaliser des éditions locales d’images. Ainsi, contrairement aux modèles purement autoregressifs, elle permet de résoudre des tâches d’imputation d’image à forme libre, ainsi que des modifications locales d’images guidées par du texte dans le cadre de modèles conditionnels, sans nécessiter d’entraînement spécifique au masque.

ImageBART : Contexte bidirectionnel avec diffusion multinomiale pour la synthèse d'images autoregressive | Articles de recherche récents | HyperAI