
摘要
主题一致性生成(SCG)——旨在在不同场景中保持主题身份的一致性——仍然是文本到图像(T2I)模型面临的一个挑战。现有的无需训练的SCG方法通常以牺牲布局和姿态多样性为代价来实现一致性,从而阻碍了富有表现力的视觉叙事。为了克服这一局限,我们提出了一种主题一致且姿态多样的T2I框架,命名为CoDi,该框架能够在保持主题一致性的同时生成多样化的姿态和布局。受扩散过程渐进性质的启发,其中粗略结构在早期出现而精细细节在后期逐步完善,CoDi采用了两阶段策略:身份传输(IT)和身份精炼(IR)。身份传输(IT)在早期去噪步骤中运行,利用最优传输技术以姿态感知的方式将身份特征传递到每个目标图像中。这不仅促进了主题的一致性,还保留了姿态的多样性。身份精炼(IR)则应用于后期去噪步骤,选择最显著的身份特征进一步优化主体细节。大量的定性和定量结果表明,CoDi在主题一致性、姿态多样性和提示保真度方面均表现出更好的视觉效果和更强的性能。代码已提供在https://github.com/NJU-PCALab/CoDi。