HyperAI超神经
16 days ago

XVerse:通过DiT调制实现一致的多主体身份和语义属性控制

Bowen Chen; Mengyi Zhao; Haomiao Sun; Li Chen; Xu Wang; Kang Du; Xinglong Wu
XVerse:通过DiT调制实现一致的多主体身份和语义属性控制
摘要

在文本到图像生成中实现对主体身份和语义属性(姿态、风格、光照)的细粒度控制,尤其是在多主体的情况下,通常会损害扩散变换器(Diffusion Transformers, DiTs)的可编辑性和连贯性。许多方法会引入伪影或遭受属性纠缠的问题。为了解决这些挑战,我们提出了一种新颖的多主体控制生成模型——XVerse。通过将参考图像转换为特定令牌文本流调制的偏移量,XVerse 能够对特定主体进行精确且独立的控制,而不会干扰图像潜在变量或特征。因此,XVerse 提供了高保真、可编辑的多主体图像合成,并对各个主体的特征和语义属性具有强大的控制能力。这一进展显著提升了个性化和复杂场景生成的能力。