6 个月前

摘要

尽管扩散模型展现出令人瞩目的生成能力，现有的基于扩散模型的风格迁移方法仍需在推理阶段进行优化（如风格的微调或文本反转），这一过程耗时较长，或无法充分利用大规模扩散模型的生成潜力。为解决上述问题，我们提出了一种基于预训练大规模扩散模型的新型艺术风格迁移方法，该方法无需任何额外优化。具体而言，我们借鉴交叉注意力机制的运作方式，通过操控自注意力层的特征，在生成过程中将内容图像的键（key）和值（value）替换为风格图像的键和值。该方法具有多项理想特性：1）通过将相似风格映射至相似图像块，有效保持内容结构；2）基于内容图像与风格图像之间局部纹理（如边缘）的相似性实现风格迁移。此外，我们引入查询保留（query preservation）机制与注意力温度缩放（attention temperature scaling）以缓解原始内容被破坏的问题，并采用初始潜在空间自适应实例归一化（initial latent Adaptive Instance Normalization, AdaIN）来解决风格迁移中色彩不协调的问题（即无法准确传递风格图像的色彩）。实验结果表明，所提出的方法在传统风格迁移与基于扩散模型的风格迁移基准测试中均显著优于现有最先进方法。

源 PDF