Command Palette

Search for a command to run...

2 个月前

MOSAIC:通过对应感知对齐与解耦实现多主体个性化生成

Dong She Siming Fu Mushui Liu Qiaoqiao Jin Hualiang Wang Mu Liu Jidong Jiang

MOSAIC:通过对应感知对齐与解耦实现多主体个性化生成

摘要

多主体个性化图像生成在基于多个参考主体生成图像时,面临着保持身份一致性与语义连贯性的独特挑战。现有方法由于未能充分建模不同主体在共享表征空间中的相互作用机制,常出现身份混杂和属性泄露问题。为此,我们提出MOSAIC——一种以表征为中心的框架,通过显式的语义对应关系与正交特征解耦机制,重新思考多主体生成问题。我们的核心洞察在于:多主体生成需要在表征层面实现精确的语义对齐——即明确生成图像中的哪些区域应关注每个参考主体的哪些部分。为实现这一目标,我们构建了SemAlign-MS数据集,该数据集经过精细标注,提供了多个参考主体与目标图像之间的细粒度语义对应关系,填补了该领域此前的空白。在此基础上,我们提出语义对应注意力损失(semantic correspondence attention loss),以强制实现点对点的精确语义对齐,确保每个参考主体与其指定区域之间保持高度一致性。此外,我们设计了多参考解耦损失(multi-reference disentanglement loss),促使不同主体被映射至正交的注意力子空间,从而在保留个体身份特征的同时,有效避免特征干扰。大量实验表明,MOSAIC在多个基准测试中均达到当前最优性能。尤为突出的是,当现有方法在参考主体超过3个时性能显著下降,而MOSAIC仍能保持高保真度地处理4个及以上参考主体,为复杂多主体图像合成应用开辟了新的可能性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供