il y a 2 mois

Apprentissage des champs de flux dans l'attention pour la génération d'images de personnes contrôlable

Zijian Zhou, Shikun Liu, Xiao Han, Haozhe Liu, Kam Woh Ng, Tian Xie, Yuren Cong, Hang Li, Mengmeng Xu, Juan-Manuel Pérez-Rúa, Aditya Patel, Tao Xiang, Miaojing Shi, Sen He

Voir les détails de l'article

Apprentissage des champs de flux dans l'attention pour la génération d'images de personnes contrôlable

Résumé

La génération d'images de personnes contrôlable vise à produire une image de personne en se basant sur des images de référence, permettant un contrôle précis de l'apparence ou de la posture de cette personne. Cependant, les méthodes précédentes déforment souvent les détails texturaux fins provenant de l'image de référence, malgré une qualité d'image globale élevée. Nous attribuons ces déformations à une attention insuffisante portée aux régions correspondantes dans l'image de référence. Pour remédier à cela, nous proposons donc d'apprendre des champs de flot dans l'attention (Leffa), qui guident explicitement la requête cible pour qu'elle se concentre sur la bonne clé de référence dans la couche d'attention pendant l'entraînement. Plus précisément, cela est réalisé par le biais d'une perte de régularisation appliquée au-dessus de la carte d'attention au sein d'un modèle basé sur la diffusion. Nos expériences approfondies montrent que Leffa atteint des performances de pointe en matière de contrôle de l'apparence (essayage virtuel) et de la posture (transfert de posture), réduisant considérablement les déformations des détails fins tout en maintenant une haute qualité d'image. De plus, nous montrons que notre perte est indépendante du modèle et peut être utilisée pour améliorer les performances d'autres modèles basés sur la diffusion.