Command Palette
Search for a command to run...

摘要
身份一致性生成已成为文本到图像研究中的重要方向,近年来的模型在生成与参考身份一致的图像方面取得了显著进展。然而,由于包含同一人物多张图像的大规模成对数据集稀缺,大多数方法不得不采用基于重建的训练策略。这种依赖往往导致一种我们称之为“复制粘贴”(copy-paste)的失效模式:模型并非在姿态、表情或光照等自然变化下保持身份一致性,而是直接复制参考人脸。这种过度相似性严重削弱了生成过程的可控性,并限制了生成结果的表现力。为解决上述问题,本文提出三项关键贡献:(1)构建了一个大规模成对数据集 MultiID-2M,专为多人物场景设计,为每个身份提供多样化的参考图像;(2)提出一个基准评测体系,能够量化“复制粘贴”伪影,并衡量身份保真度与变化多样性之间的权衡;(3)提出一种新颖的训练范式,引入对比身份损失(contrastive identity loss),充分利用成对数据,在身份保真度与生成多样性之间实现良好平衡。上述工作最终催生了 WithAnyone——一种基于扩散模型的生成方法,能够有效缓解“复制粘贴”问题,同时保持高程度的身份相似性。大量定性与定量实验表明,WithAnyone显著减少了“复制粘贴”伪影,提升了对姿态与表情的可控性,并维持了优异的视觉感知质量。用户研究进一步验证了本方法在保持高身份保真度的同时,实现了富有表现力且可控的图像生成。