16 天前

WithAnyone：迈向可控且ID一致的图像生成

Hengyuan Xu Wei Cheng Peng Xing Yixiao Fang Shuhan Wu Rui Wang Xianfang Zeng Daxin Jiang Gang Yu Xingjun Ma

摘要

身份一致性生成已成为文本到图像研究中的重要方向，近年来的模型在生成与参考身份一致的图像方面取得了显著进展。然而，由于包含同一人物多张图像的大规模成对数据集稀缺，大多数方法不得不采用基于重建的训练策略。这种依赖往往导致一种我们称之为“复制粘贴”（copy-paste）的失效模式：模型并非在姿态、表情或光照等自然变化下保持身份一致性，而是直接复制参考人脸。这种过度相似性严重削弱了生成过程的可控性，并限制了生成结果的表现力。为解决上述问题，本文提出三项关键贡献：（1）构建了一个大规模成对数据集 MultiID-2M，专为多人物场景设计，为每个身份提供多样化的参考图像；（2）提出一个基准评测体系，能够量化“复制粘贴”伪影，并衡量身份保真度与变化多样性之间的权衡；（3）提出一种新颖的训练范式，引入对比身份损失（contrastive identity loss），充分利用成对数据，在身份保真度与生成多样性之间实现良好平衡。上述工作最终催生了 WithAnyone——一种基于扩散模型的生成方法，能够有效缓解“复制粘贴”问题，同时保持高程度的身份相似性。大量定性与定量实验表明，WithAnyone显著减少了“复制粘贴”伪影，提升了对姿态与表情的可控性，并维持了优异的视觉感知质量。用户研究进一步验证了本方法在保持高身份保真度的同时，实现了富有表现力且可控的图像生成。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

WithAnyone：迈向可控且ID一致的图像生成

Hengyuan Xu Wei Cheng Peng Xing Yixiao Fang Shuhan Wu Rui Wang Xianfang Zeng Daxin Jiang Gang Yu Xingjun Ma1 more

摘要

用 AI 构建 AI

Hyper Newsletters

Hengyuan Xu Wei Cheng Peng Xing Yixiao Fang Shuhan Wu Rui Wang Xianfang Zeng Daxin Jiang Gang Yu Xingjun Ma