HyperAIHyperAI

Command Palette

Search for a command to run...

Console
6 天前

语义引领方向:通过异步潜在扩散实现语义与纹理建模的协同

Yueming Pan Ruoyu Feng Qi Dai Yuqi Wang Wenfeng Lin Mingyu Guo Chong Luo Nanning Zheng

语义引领方向:通过异步潜在扩散实现语义与纹理建模的协同

摘要

潜在扩散模型(Latent Diffusion Models, LDMs)本质上遵循一种从粗到细的生成过程,其中高层语义结构的生成略早于细粒度纹理的生成。这一特性表明,早期生成的语义信息可能通过提供语义锚点,对后续纹理生成起到有益作用。近年来的研究通过引入预训练视觉编码器中的语义先验来进一步提升LDM的性能,但这些方法仍同步去噪语义与VAE编码的纹理信息,忽略了上述时序顺序。基于此观察,我们提出了一种名为“语义优先扩散”(Semantic-First Diffusion, SFD)的潜在扩散范式,其核心在于显式地优先构建语义表征。SFD首先通过将来自预训练视觉编码器提取的紧凑语义潜在变量(经专用语义VAE编码获得)与纹理潜在变量进行组合,构建复合潜在表示。SFD的关键在于采用独立的噪声调度策略,异步地对语义与纹理潜在变量进行去噪:语义部分在时间上领先于纹理部分,形成一定的时序偏移。这一设计为纹理精炼提供了更清晰的高层指导,从而实现了自然的从粗到细生成过程。在ImageNet 256×256数据集上,结合引导机制后,SFD在LightningDiT-XL模型下实现了1.06的FID得分,在1.0B参数量的LightningDiT-XXL模型下达到1.04的FID得分,同时收敛速度相比原始DiT模型最快提升了100倍。此外,SFD还能有效提升现有方法如ReDi和VA-VAE的性能,充分验证了异步、以语义为导向建模的有效性。项目主页与代码地址:https://yuemingpan.github.io/SFD.github.io/

代码仓库

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供