8 个月前

Gaurav Parmar Krishna Kumar Singh Richard Zhang Yijun Li Jingwan Lu Jun-Yan Zhu

摘要

大规模文本到图像生成模型展示了其合成多样且高质量图像的卓越能力。然而，直接将这些模型应用于真实图像编辑仍面临两大挑战。首先，用户很难构思出一个完美的文本提示，以精确描述输入图像中的每一个视觉细节。其次，尽管现有模型能够在某些区域引入期望的变化，但它们通常会大幅改变输入内容，并在不需要修改的区域引入意外变化。在本研究中，我们提出了一种名为 pix2pix-zero 的图像到图像翻译方法，该方法无需手动提示即可保留原始图像的内容。我们首先自动发现反映所需编辑方向的文本嵌入空间。为了在编辑后保留整体内容结构，我们进一步提出了交叉注意力引导（cross-attention guidance），旨在在整个扩散过程中保持输入图像的交叉注意力图。此外，我们的方法无需为这些编辑进行额外训练，可以直接使用现有的预训练文本到图像扩散模型。我们进行了广泛的实验，并证明了该方法在真实和合成图像编辑方面均优于现有的和同期的研究成果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Gaurav Parmar Krishna Kumar Singh Richard Zhang Yijun Li Jingwan Lu Jun-Yan Zhu

摘要

大规模文本到图像生成模型展示了其合成多样且高质量图像的卓越能力。然而，直接将这些模型应用于真实图像编辑仍面临两大挑战。首先，用户很难构思出一个完美的文本提示，以精确描述输入图像中的每一个视觉细节。其次，尽管现有模型能够在某些区域引入期望的变化，但它们通常会大幅改变输入内容，并在不需要修改的区域引入意外变化。在本研究中，我们提出了一种名为 pix2pix-zero 的图像到图像翻译方法，该方法无需手动提示即可保留原始图像的内容。我们首先自动发现反映所需编辑方向的文本嵌入空间。为了在编辑后保留整体内容结构，我们进一步提出了交叉注意力引导（cross-attention guidance），旨在在整个扩散过程中保持输入图像的交叉注意力图。此外，我们的方法无需为这些编辑进行额外训练，可以直接使用现有的预训练文本到图像扩散模型。我们进行了广泛的实验，并证明了该方法在真实和合成图像编辑方面均优于现有的和同期的研究成果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供