2 个月前

使用引导扩散模型对真实图像进行编辑的空文本反转方法

Ron Mokady; Amir Hertz; Kfir Aberman; Yael Pritch; Daniel Cohen-Or
使用引导扩散模型对真实图像进行编辑的空文本反转方法
摘要

近期的文本引导扩散模型提供了强大的图像生成能力。目前,大量研究致力于仅通过文本实现这些图像的修改,以提供直观且多样的编辑功能。为了使用这些最先进的工具对真实图像进行编辑,首先需要将图像与有意义的文本提示一起反演到预训练模型的域中。在本文中,我们介绍了一种精确的反演技术,从而促进了基于文本的图像修改的直观性。我们提出的反演方法包含两个新颖的关键组件:(i) 扩散模型的关键反演(Pivotal inversion)。现有方法通常旨在将随机噪声样本映射到单个输入图像,而我们则为每个时间戳使用一个关键噪声向量,并围绕其进行优化。我们证明了直接反演本身是不够的,但确实为我们的优化提供了一个良好的锚点。(ii) 空文本优化(NULL-text optimization),即仅修改用于无分类器引导的无条件文本嵌入,而不是输入文本嵌入。这使得模型权重和条件嵌入保持不变,从而能够在避免繁琐调整模型权重的同时实现基于提示的编辑。基于公开可用的Stable Diffusion模型,我们的空文本反演方法在多种图像和提示编辑上进行了广泛评估,展示了高保真度的真实图像编辑效果。