17 天前
eDiff-I:基于专家去噪器集成的文本到图像扩散模型
Yogesh Balaji, Seungjun Nah, Xun Huang, Arash Vahdat, Jiaming Song, Qinsheng Zhang, Karsten Kreis, Miika Aittala, Timo Aila, Samuli Laine, Bryan Catanzaro, Tero Karras, Ming-Yu Liu

摘要
基于大规模扩散模型的生成方法在文本条件驱动的高分辨率图像合成领域取得了突破性进展。这类文本到图像的扩散模型从随机噪声出发,通过迭代过程逐步合成图像,并以文本提示作为条件。我们发现,其生成行为在整个过程中呈现出显著的定性变化:在采样初期,生成过程强烈依赖于文本提示以生成与文本对齐的内容;而在后期,文本条件的影响几乎被完全忽略。这一现象表明,在整个生成过程中共享模型参数可能并非最优策略。因此,与现有方法不同,我们提出训练一组针对不同生成阶段专门优化的文本到图像扩散模型,构成一个模型集成系统。为保持训练效率,我们首先训练一个统一的模型,随后将其拆分为多个专用模型,分别针对迭代生成过程中的特定阶段进行微调。我们提出的这一集成扩散模型系统称为eDiff-I,在保持与现有方法相同推理计算开销的同时,显著提升了文本对齐能力,并维持了高质量的视觉效果,在标准基准测试中超越了以往的大规模文本到图像扩散模型。此外,我们训练模型以利用多种嵌入表示作为条件输入,包括T5文本嵌入、CLIP文本嵌入以及CLIP图像嵌入。实验表明,不同嵌入方式会引发模型表现出不同的生成行为。特别地,使用CLIP图像嵌入可实现一种直观的风格迁移方式:用户可将参考图像的风格无缝迁移至目标文本生成的图像中。最后,我们提出一种技术,使eDiff-I具备“以词作画”(paint-with-words)的能力。用户可在输入文本中选择特定词汇,并在画布上“绘制”该词,从而直观控制生成结果。这一功能极大提升了用户对生成图像的可控性,便于精准实现心中构想的图像。项目主页详见:https://deepimagination.cc/eDiff-I/