2 个月前
基于提示的图像编辑与交叉注意力控制
Amir Hertz; Ron Mokady; Jay Tenenbaum; Kfir Aberman; Yael Pritch; Daniel Cohen-Or

摘要
近期,大规模基于文本驱动的合成模型因其卓越的能力而备受关注,这些能力包括根据给定的文本提示生成高度多样化的图像。这种基于文本的合成方法特别吸引那些习惯于通过口头描述来表达意图的人类用户。因此,将基于文本的图像合成扩展到基于文本的图像编辑是自然而然的事情。然而,对于这些生成模型而言,编辑是一项具有挑战性的任务,因为编辑技术的一个固有属性是在修改时保留大部分原始图像的内容,而在基于文本的模型中,即使对文本提示进行微小的修改也常常会导致完全不同的结果。现有的最先进方法通过要求用户提供一个空间掩码来定位编辑区域以缓解这一问题,从而忽略了掩码区域内原有的结构和内容。在本文中,我们致力于开发一种直观的从提示到提示(prompt-to-prompt)编辑框架,其中编辑仅由文本控制。为此,我们深入分析了一种基于文本条件的模型,并观察到交叉注意力层是控制图像空间布局与提示中每个单词之间关系的关键。基于这一发现,我们提出了一些应用案例,这些应用通过仅编辑文本提示来监控图像合成过程。这包括通过替换单词实现局部编辑、通过添加规格实现全局编辑,甚至精细地控制某个单词在图像中的反映程度。我们在多种图像和提示上展示了我们的实验结果,证明了高质量的合成效果以及对编辑后提示的高度忠实度。