4 天前

无需训练的文本引导多模态扩散Transformer颜色编辑

Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Heung-Yeung Shum
无需训练的文本引导多模态扩散Transformer颜色编辑
摘要

图像与视频中的文本引导色彩编辑是一个基础但尚未解决的问题,其核心在于对颜色属性(包括反照率、光源颜色和环境光照)进行细粒度操控,同时在几何结构、材质属性以及光与物质相互作用方面保持物理一致性。现有的无需训练方法虽在各类编辑任务中具有广泛的适用性,但在精确控制色彩方面表现不佳,常导致编辑区域与未编辑区域之间出现视觉不一致。本文提出ColorCtrl,一种无需训练的色彩编辑方法,该方法利用现代多模态扩散变换器(MM-DiT)中的注意力机制。通过针对性地操纵注意力图与值令牌(value tokens),实现结构与色彩的解耦,从而支持精准且一致的色彩编辑,并可实现基于词语级别的属性强度控制。本方法仅修改提示中指定的目标区域,其余无关区域保持不变。在SD3与FLUX.1-dev模型上的大量实验表明,ColorCtrl优于现有的无需训练方法,在编辑质量与一致性方面均达到当前最优水平。此外,相较于FLUX.1 Kontext Max和GPT-4o图像生成等强大的商业模型,我们的方法在一致性方面表现更优。当扩展至视频模型(如CogVideoX)时,该方法展现出更大优势,尤其在保持时间连贯性与编辑稳定性方面表现突出。最后,该方法还可推广至基于指令的编辑扩散模型(如Step1X-Edit和FLUX.1 Kontext dev),进一步验证了其出色的泛化能力与多场景适用性。