2 个月前

基于视觉引导和掩模增强的自适应去噪在提示式图像编辑中的应用

Kejie Wang; Xuemeng Song; Meng Liu; Jin Yuan; Weili Guan
基于视觉引导和掩模增强的自适应去噪在提示式图像编辑中的应用
摘要

文本到图像扩散模型在从文本提示合成高质量图像方面取得了显著进展,这推动了基于提示的图像编辑研究的发展,即根据目标提示对源图像进行编辑。尽管这些方法已经取得了一定的进展,但仍面临三个关键问题:1)文本提示在引导目标图像生成方面的能力有限;2)未能充分挖掘词到块(word-to-patch)和块到块(patch-to-patch)的关系以确定编辑区域;3)在每个去噪步骤中对所有区域采用统一的编辑强度。为了解决这些问题,我们提出了一种视觉引导和掩码增强自适应编辑(ViMAEdit)方法,该方法包含三个关键创新设计。首先,我们建议利用图像嵌入作为显式指导来增强传统的基于文本提示的去噪过程,并引入了一种基于CLIP的目标图像嵌入估计策略。其次,我们设计了一种自注意力引导的迭代编辑区域定位策略,该策略通过反复利用自注意力图传达的块到块关系来细化交叉注意力图中的词到块关系。最后,我们提出了一种空间自适应方差引导采样方法,该方法突出关键图像区域的采样方差以提高编辑能力。实验结果表明,ViMAEdit在所有现有方法中具有优越的编辑性能。