HyperAIHyperAI
il y a 2 mois

Débruitage adaptatif guidé par la vision et amélioré par le masque pour l'édition d'images basée sur les prompts

Kejie Wang; Xuemeng Song; Meng Liu; Jin Yuan; Weili Guan
Débruitage adaptatif guidé par la vision et amélioré par le masque pour l'édition d'images basée sur les prompts
Résumé

Les modèles de diffusion texte-image ont montré des progrès remarquables dans la synthèse d'images de haute qualité à partir de prompts textuels, ce qui stimule les recherches sur l'édition d'images basée sur des prompts, permettant de modifier une image source selon un prompt cible. Malgré ces avancées, les méthodes existantes rencontrent encore trois problèmes clés : 1) une capacité limitée du prompt textuel pour guider la génération d'images cibles, 2) une exploitation insuffisante des relations mot-patch et patch-patch pour ancrer les zones d'édition, et 3) une force d'édition uniforme pour toutes les régions lors de chaque étape de débruitage. Pour résoudre ces problèmes, nous présentons une méthode d'édition adaptative guidée par la vision et améliorée par le masquage (ViMAEdit), dotée de trois innovations clés. Premièrement, nous proposons d'utiliser des plongements d'image comme guide explicite pour renforcer le processus traditionnel de débruitage basé sur des prompts textuels, où une stratégie d'estimation de plongement d'image cible basée sur CLIP est introduite. Deuxièmement, nous élaborons une stratégie d'ancrage itératif des zones d'édition guidée par l'auto-attention, qui exploite itérativement les relations patch-patch transmises par les cartes d'auto-attention pour affiner les relations mot-patch contenues dans les cartes d'attention croisée. Enfin, nous présentons un échantillonnage guidé par la variance spatialement adaptative, qui met en avant les variances d'échantillonnage pour les régions critiques de l'image afin de promouvoir la capacité d'édition. Les résultats expérimentaux démontrent la supériorité de ViMAEdit en matière d'édition par rapport à toutes les méthodes existantes.

Débruitage adaptatif guidé par la vision et amélioré par le masque pour l'édition d'images basée sur les prompts | Articles de recherche récents | HyperAI