2 个月前

即插即用扩散特征用于文本驱动的图像到图像翻译

Narek Tumanyan; Michal Geyer; Shai Bagon; Tali Dekel
即插即用扩散特征用于文本驱动的图像到图像翻译
摘要

大规模文本到图像生成模型在生成人工智能的发展中取得了革命性的突破,使我们能够合成传达高度复杂视觉概念的多样化图像。然而,利用这些模型进行现实世界内容创作任务的关键挑战之一是为用户提供对生成内容的控制能力。本文提出了一种新的框架,将文本到图像合成扩展到了图像到图像翻译领域——给定一张引导图像和一个目标文本提示,我们的方法利用预训练的文本到图像扩散模型生成一张新的图像,该图像既符合目标文本的要求,又保留了源图像的语义布局。具体而言,我们观察并实证展示了通过操纵模型内部的空间特征及其自注意力机制可以实现对生成结构的细粒度控制。这导致了一种简单而有效的方法,即从引导图像中提取的特征直接注入目标图像的生成过程中,无需任何训练或微调,并且适用于真实或生成的引导图像。我们在多种文本引导的图像翻译任务中展示了高质量的结果,包括将草图、粗略绘图和动画转换为逼真图像,改变给定图像中对象的类别和外观,以及调整全局属性如光照和颜色。