StyleDiffusion : Inversion de l'Embedding des Prompts pour l'Édition Basée sur le Texte

Un effort de recherche important est consacré à l'exploitation des capacités remarquables des modèles de diffusion préentraînés pour l'édition d'images. Ces méthodes consistent soit à affiner le modèle, soit à inverser l'image dans l'espace latent du modèle préentraîné. Cependant, elles souffrent de deux problèmes : (1) Des résultats insatisfaisants pour les régions sélectionnées et des modifications inattendues dans les régions non sélectionnées. (2) Elles nécessitent une édition minutieuse des prompts textuels, où le prompt doit inclure tous les objets visuels présents dans l'image d'entrée. Pour remédier à ces problèmes, nous proposons deux améliorations : (1) L'optimisation seule de l'entrée du réseau linéaire de valeur dans les couches d'attention croisée est suffisamment puissante pour reconstruire une image réelle. (2) Nous proposons une régularisation de l'attention pour préserver les cartes d'attention ressemblant à des objets après la reconstruction et l'édition, ce qui nous permet d'obtenir une édition stylistique précise sans provoquer de changements structurels importants. Nous améliorons également la technique d'édition utilisée pour la branche inconditionnelle de la guidance sans classificateur, telle que mise en œuvre par P2P. De nombreux résultats expérimentaux sur une variété d'images démontrent qualitativement et quantitativement que notre méthode possède des capacités d'édition supérieures par rapport aux travaux existants et concurrents. Voir notre code accompagnant dans Stylediffusion : \url{https://github.com/sen-mao/StyleDiffusion}.