2 个月前

FastComposer:无需调参的多主体图像生成与局部注意力机制

Xiao, Guangxuan ; Yin, Tianwei ; Freeman, William T. ; Durand, Frédo ; Han, Song
FastComposer:无需调参的多主体图像生成与局部注意力机制
摘要

扩散模型在文本到图像生成方面表现出色,特别是在个性化图像的主题驱动生成中。然而,现有的方法由于需要针对特定主题进行微调而效率低下,这不仅计算成本高昂,还阻碍了高效部署。此外,现有方法在多主体生成方面也存在困难,因为它们往往会将不同主体的特征混合在一起。我们提出了一种名为FastComposer的方法,该方法能够在无需微调的情况下实现高效、个性化的多主体文本到图像生成。FastComposer利用图像编码器提取的主题嵌入来增强扩散模型中的通用文本条件,从而仅通过前向传递即可根据主题图像和文本指令生成个性化图像。为了解决多主体生成中的身份混合问题,FastComposer在训练过程中引入了交叉注意力定位监督,强制参考主体的注意力集中在目标图像的正确区域上。简单地基于主题嵌入进行条件设置会导致主题过拟合。为此,FastComposer提出了在去噪步骤中延迟主题条件设置的方法,以在主题驱动的图像生成中保持身份和可编辑性。FastComposer可以生成多个未见过个体的不同风格、动作和背景的图像。与基于微调的方法相比,它实现了300倍至2500倍的速度提升,并且对新主体不需要额外存储空间。FastComposer为高效、个性化和高质量的多主体图像创作铺平了道路。代码、模型和数据集可在https://github.com/mit-han-lab/fastcomposer获取。

FastComposer:无需调参的多主体图像生成与局部注意力机制 | 最新论文 | HyperAI超神经