HyperAIHyperAI
il y a un mois

Génération d'images à partir de texte avec cohérence du sujet et diversité des poses

Zhanxin Gao, Beier Zhu, Liang Yao, Jian Yang, Ying Tai
Génération d'images à partir de texte avec cohérence du sujet et diversité des poses
Résumé

La génération cohérente de sujets (SCG), visant à maintenir une identité de sujet constante dans diverses scènes, reste un défi pour les modèles de génération d'images à partir de texte (T2I). Les méthodes SCG existantes sans entraînement atteignent souvent la cohérence au détriment de la diversité des poses et des dispositions, ce qui entrave le récit visuel expressif. Pour surmonter cette limitation, nous proposons un cadre T2I cohérent en matière d'identité et diversifié en termes de pose, appelé CoDi, qui permet une génération de sujets cohérente avec une grande variété de poses et de dispositions. Inspirés par la nature progressive des processus de diffusion, où les structures grossières apparaissent tôt et les détails fins sont affinés plus tard, CoDi adopte une stratégie en deux étapes : Transfert d'Identité (IT) et Affinement d'Identité (IR). L'étape IT intervient lors des premiers pas de débruitage, utilisant le transport optimal pour transférer les caractéristiques d'identité à chaque image cible d'une manière sensible aux poses. Cela favorise la cohérence du sujet tout en préservant la diversité des poses. L'étape IR est appliquée lors des étapes ultérieures de débruitage, sélectionnant les caractéristiques d'identité les plus saillantes pour affiner davantage les détails du sujet. Des résultats qualitatifs et quantitatifs approfondis sur la cohérence du sujet, la diversité des poses et la fidélité aux prompts montrent que CoDi offre une meilleure perception visuelle ainsi qu'une performance supérieure selon tous les critères. Le code est disponible à l'adresse suivante : https://github.com/NJU-PCALab/CoDi.

Génération d'images à partir de texte avec cohérence du sujet et diversité des poses | Articles de recherche récents | HyperAI