2 个月前
DreamBooth:针对主题生成的文本到图像扩散模型微调
Ruiz, Nataniel ; Li, Yuanzhen ; Jampani, Varun ; Pritch, Yael ; Rubinstein, Michael ; Aberman, Kfir

摘要
大型文本到图像模型在人工智能的发展中实现了显著的飞跃,使得从给定文本提示生成高质量且多样的图像成为可能。然而,这些模型缺乏模仿给定参考集中主体外观的能力,无法在不同背景下合成这些主体的新颖表现。在这项工作中,我们提出了一种新的“个性化”文本到图像扩散模型的方法。仅需输入几张主体的图像,我们就可以对预训练的文本到图像模型进行微调,使其学会将一个独特的标识符与该特定主体绑定。一旦主体被嵌入到模型的输出域中,这个独特的标识符就可以用于在不同的场景中合成新颖的逼真图像。通过利用模型中嵌入的语义先验,并引入一种新的自生类别特定先验保留损失(autogenous class-specific prior preservation loss),我们的技术能够在参考图像中未出现的各种场景、姿态、视角和光照条件下合成主体。我们将这一技术应用于多个以前难以解决的任务,包括主体重新上下文化、文本引导视图合成和艺术渲染,同时保留主体的关键特征。此外,我们还提供了一个新的数据集和评估协议,以支持这项新的以主体驱动的生成任务。项目页面:https://dreambooth.github.io/