Command Palette
Search for a command to run...
Xuechao Zou Shun Zhang Xing Fu Yue Li Kai Li Yushe Cao Congyan Lang Pin Tao Junliang Xing

摘要
可控人脸生成在生成建模中面临重大挑战,原因在于语义可控性与照片级真实感之间需要精细平衡。现有方法在将语义控制与生成流程解耦方面仍存在困难。本文从专家专精的角度重新审视了扩散Transformer(DiTs)的架构潜力。本文提出一种名为Face-MoGLE的新框架,其主要特点包括:(1)通过掩码条件下的潜在空间因子分解实现语义解耦的潜在建模,从而支持精确的属性操控;(2)融合全局专家与局部专家的混合结构,能够同时捕捉整体结构与区域级语义信息,实现细粒度的可控生成;(3)设计动态门控网络,生成随扩散步骤和空间位置动态演化的时变系数。Face-MoGLE为高质量、可控的人脸生成提供了一种强大且灵活的解决方案,在生成建模与安全应用方面具有广阔前景。大量实验表明,该方法在多模态与单模态人脸生成场景中均表现出优异性能,并具备强大的零样本泛化能力。项目主页详见:https://github.com/XavierJiezou/Face-MoGLE。