2 个月前

StyleDiffusion: 基于提示嵌入反转的文本编辑方法

Senmao Li; Joost van de Weijer; Taihang Hu; Fahad Shahbaz Khan; Qibin Hou; Yaxing Wang; Jian Yang; Ming-Ming Cheng
StyleDiffusion: 基于提示嵌入反转的文本编辑方法
摘要

当前的研究重点在于利用预训练扩散模型的惊人能力进行图像编辑。这些方法要么对模型进行微调,要么在预训练模型的潜在空间中反演图像。然而,它们存在两个主要问题:(1)选定区域的编辑结果不尽如人意,且非选定区域会出现意外变化;(2)需要仔细编辑文本提示,其中提示应包含输入图像中的所有视觉对象。为了解决这些问题,我们提出了两项改进措施:(1)仅优化交叉注意力层中值线性网络的输入就足以重建真实图像;(2)我们提出了一种注意力正则化方法,以在重建和编辑后保留对象级别的注意力图,从而实现精确的风格编辑而不引起显著的结构变化。此外,我们还改进了用于无条件分支的分类器自由引导中的编辑技术,如P2P所使用的。我们在多种图像上进行了广泛的实验提示编辑,并从定性和定量两方面证明了我们的方法相比现有和同期工作具有更优越的编辑能力。请参阅我们在Stylediffusion项目中提供的配套代码:\url{https://github.com/sen-mao/StyleDiffusion}。