Édition d'images de prompt à prompt avec contrôle de l'attention croisée

Les modèles récents de synthèse d'images à grande échelle guidés par le texte ont attiré beaucoup d'attention grâce à leurs capacités remarquables à générer des images hautement diverses qui suivent les instructions textuelles données. Ces méthodes de synthèse basées sur le texte sont particulièrement attrayantes pour les humains habitués à décrire verbalement leurs intentions. Il est donc naturel d'étendre la synthèse d'images guidée par le texte à l'édition d'images guidée par le texte. L'édition représente un défi pour ces modèles génératifs, car une propriété inhérente d'une technique d'édition est de préserver la majorité de l'image originale, tandis que dans les modèles basés sur le texte, même une petite modification du prompt textuel peut souvent entraîner un résultat complètement différent. Les méthodes les plus avancées atténuent ce problème en demandant aux utilisateurs de fournir un masque spatial pour localiser l'édition, ignorant ainsi la structure et le contenu originaux au sein de la région masquée. Dans cet article, nous poursuivons le développement d'un cadre intuitif d'édition prompt-to-prompt, où les modifications sont contrôlées uniquement par le texte. À cette fin, nous analysons en profondeur un modèle conditionné par le texte et observons que les couches de cross-attention sont essentielles pour contrôler la relation entre la disposition spatiale de l'image et chaque mot du prompt. Grâce à cette observation, nous présentons plusieurs applications qui surveillent la synthèse d'images en modifiant uniquement le prompt textuel. Cela inclut l'édition localisée en remplaçant un mot, l'édition globale en ajoutant une spécification, et même le contrôle subtil de l'ampleur avec laquelle un mot est reflété dans l'image. Nous présentons nos résultats sur des images et des prompts variés, démontrant une synthèse de haute qualité et une fidélité aux prompts modifiés.