HyperAIHyperAI
il y a 4 jours

Édition de couleur guidée par le texte sans entraînement grâce au transformateur de diffusion multimodale

Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Heung-Yeung Shum
Édition de couleur guidée par le texte sans entraînement grâce au transformateur de diffusion multimodale
Résumé

L’édition de couleur guidée par texte dans les images et les vidéos constitue un problème fondamental mais encore non résolu, exigeant une manipulation fine des attributs de couleur, notamment l’albédo, la couleur de la source lumineuse et l’éclairage ambiant, tout en préservant une cohérence physique en matière de géométrie, de propriétés matérielles et d’interactions lumière-matière. Les méthodes actuelles sans entraînement offrent une large applicabilité à diverses tâches d’édition, mais peinent à assurer un contrôle précis de la couleur et introduisent fréquemment des incohérences visuelles, tant dans les régions modifiées que dans celles non touchées. Dans ce travail, nous proposons ColorCtrl, une méthode d’édition de couleur sans entraînement qui exploite les mécanismes d’attention des transformateurs diffusion multimodaux modernes (MM-DiT). En désentrelaçant structure et couleur grâce à une manipulation ciblée des cartes d’attention et des tokens de valeur, notre approche permet une édition précise et cohérente de la couleur, accompagnée d’un contrôle au niveau des mots sur l’intensité des attributs. Notre méthode n’altère que les régions ciblées spécifiées par le prompt, laissant les zones non pertinentes inchangées. Des expériences étendues menées sur SD3 et FLUX.1-dev montrent que ColorCtrl surpasse les approches existantes sans entraînement et atteint des performances de pointe en termes de qualité d’édition et de cohérence. En outre, notre méthode dépasse des modèles commerciaux puissants tels que FLUX.1 Kontext Max et GPT-4o Image Generation en matière de cohérence. Lorsqu’elle est étendue à des modèles vidéo comme CogVideoX, notre approche présente des avantages significatifs, notamment en matière de cohérence temporelle et de stabilité d’édition. Enfin, notre méthode s’applique également à des modèles diffusion d’édition basés sur des instructions, tels que Step1X-Edit et FLUX.1 Kontext dev, démontrant ainsi sa grande polyvalence.