2 个月前

零样本图像到图像翻译

Gaurav Parmar; Krishna Kumar Singh; Richard Zhang; Yijun Li; Jingwan Lu; Jun-Yan Zhu
零样本图像到图像翻译
摘要

大规模文本到图像生成模型展示了其合成多样且高质量图像的卓越能力。然而,直接将这些模型应用于真实图像编辑仍面临两大挑战。首先,用户很难构思出一个完美的文本提示,以精确描述输入图像中的每一个视觉细节。其次,尽管现有模型能够在某些区域引入期望的变化,但它们通常会大幅改变输入内容,并在不需要修改的区域引入意外变化。在本研究中,我们提出了一种名为 pix2pix-zero 的图像到图像翻译方法,该方法无需手动提示即可保留原始图像的内容。我们首先自动发现反映所需编辑方向的文本嵌入空间。为了在编辑后保留整体内容结构,我们进一步提出了交叉注意力引导(cross-attention guidance),旨在在整个扩散过程中保持输入图像的交叉注意力图。此外,我们的方法无需为这些编辑进行额外训练,可以直接使用现有的预训练文本到图像扩散模型。我们进行了广泛的实验,并证明了该方法在真实和合成图像编辑方面均优于现有的和同期的研究成果。