Command Palette
Search for a command to run...
Yufeng Cheng Wenxu Wu Shaojin Wu Mengqi Huang Fei Ding Qian He

摘要
近期图像定制技术的进展因其更强的定制能力而展现出广泛的应用前景。然而,由于人类对人脸具有更高的敏感性,如何在使用多参考图像时保持身份一致性、同时避免身份混淆,仍是当前面临的重要挑战,这限制了定制化模型在身份可扩展性方面的表现。为解决这一问题,我们提出 UMO(Unified Multi-identity Optimization,统一多身份优化)框架,旨在实现高保真度的身份保持,并在可扩展性方面有效缓解身份混淆问题。UMO 采用“多对多匹配”(multi-to-multi matching)范式,将多身份生成建模为全局分配优化问题,并通过在扩散模型上应用强化学习,普遍提升现有图像定制方法的多身份一致性。为支持 UMO 的训练,我们构建了一个可扩展的定制化数据集,该数据集包含合成与真实图像两部分的多参考图像。此外,我们还提出了一种新的度量指标,用于量化身份混淆程度。大量实验表明,UMO 不仅显著提升了身份一致性,还在多个图像定制方法上有效降低了身份混淆,成为开源方法中在身份保持维度上的新SOTA(state-of-the-art)。代码与模型地址:https://github.com/bytedance/UMO