HyperAIHyperAI
il y a 2 mois

MasaCtrl : Contrôle de l'auto-attention mutuelle sans réglage pour une synthèse et une édition d'images cohérentes

Mingdeng Cao; Xintao Wang; Zhongang Qi; Ying Shan; Xiaohu Qie; Yinqiang Zheng
MasaCtrl : Contrôle de l'auto-attention mutuelle sans réglage pour une synthèse et une édition d'images cohérentes
Résumé

Bien que les méthodes actuelles aient connu un succès notable dans la génération d'images à grande échelle à partir de texte et l'édition d'images conditionnée par du texte, elles peinent encore à produire des résultats cohérents en termes de génération et d'édition. Par exemple, les approches de génération échouent souvent à synthétiser plusieurs images des mêmes objets/characters mais avec différentes vues ou poses. De plus, les méthodes existantes d'édition échouent soit à réaliser une édition non rigide complexe tout en maintenant les textures globales et l'identité, soit nécessitent un ajustement minutieux et chronophage pour capturer l'apparence spécifique de l'image. Dans cet article, nous développons MasaCtrl, une méthode sans ajustement (tuning-free) permettant d'atteindre simultanément une génération d'images cohérente et une édition d'images non rigide complexe. Plus précisément, MasaCtrl transforme l'auto-attention existante dans les modèles de diffusion en auto-attention mutuelle, afin qu'elle puisse interroger des contenus et textures locaux corrélés provenant des images sources pour assurer la cohérence. Pour réduire davantage la confusion des requêtes entre premier plan et arrière-plan, nous proposons une stratégie d'auto-attention mutuelle guidée par un masque, où le masque peut être facilement extrait des cartes d'attention croisée. De nombreuses expériences montrent que le MasaCtrl proposé produit des résultats impressionnants tant en génération d'images cohérente qu'en édition d'images réelles non rigides complexes.