17 天前
用自身的一个劣质版本引导扩散模型
Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine

摘要
图像生成扩散模型的主要关注维度包括图像质量、生成结果的多样性以及结果与给定条件(如类别标签或文本提示)的对齐程度。目前广泛采用的无分类器引导(classifier-free guidance)方法通过使用无条件模型来引导条件模型,能够在提升提示词对齐度和图像质量的同时,但通常会牺牲生成结果的多样性。这些效应看似内在耦合,因而难以独立控制。我们提出了一个出人意料的观察:通过使用模型自身的一个更小、训练程度更低的版本进行引导,而非依赖无条件模型,即可实现对图像质量的解耦控制,同时不损失生成结果的多样性。该方法在ImageNet图像生成任务中取得了显著提升,使用公开可获取的网络模型,分别实现了64×64和512×512分辨率下的记录性FID得分——分别为1.01和1.25。此外,该方法同样适用于无条件扩散模型,可大幅提高其生成质量。