Command Palette

Search for a command to run...

16 天前

WithAnyone:迈向可控且ID一致的图像生成

WithAnyone:迈向可控且ID一致的图像生成

摘要

身份一致性生成已成为文本到图像研究中的重要方向,近年来的模型在生成与参考身份一致的图像方面取得了显著进展。然而,由于包含同一人物多张图像的大规模成对数据集稀缺,大多数方法不得不采用基于重建的训练策略。这种依赖往往导致一种我们称之为“复制粘贴”(copy-paste)的失效模式:模型并非在姿态、表情或光照等自然变化下保持身份一致性,而是直接复制参考人脸。这种过度相似性严重削弱了生成过程的可控性,并限制了生成结果的表现力。为解决上述问题,本文提出三项关键贡献:(1)构建了一个大规模成对数据集 MultiID-2M,专为多人物场景设计,为每个身份提供多样化的参考图像;(2)提出一个基准评测体系,能够量化“复制粘贴”伪影,并衡量身份保真度与变化多样性之间的权衡;(3)提出一种新颖的训练范式,引入对比身份损失(contrastive identity loss),充分利用成对数据,在身份保真度与生成多样性之间实现良好平衡。上述工作最终催生了 WithAnyone——一种基于扩散模型的生成方法,能够有效缓解“复制粘贴”问题,同时保持高程度的身份相似性。大量定性与定量实验表明,WithAnyone显著减少了“复制粘贴”伪影,提升了对姿态与表情的可控性,并维持了优异的视觉感知质量。用户研究进一步验证了本方法在保持高身份保真度的同时,实现了富有表现力且可控的图像生成。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供