Command Palette
Search for a command to run...
Minglei Shi Haolin Wang Wenzhao Zheng Ziyang Yuan Xiaoshi Wu Xintao Wang Pengfei Wan Jie Zhou Jiwen Lu

摘要
基于扩散模型的视觉生成近年来取得了显著进展,主要依赖于结合变分自编码器(VAEs)的潜在扩散模型。尽管该VAE+扩散范式在高保真图像合成方面表现有效,但仍存在训练效率低、推理速度慢以及难以迁移至更广泛视觉任务等问题。这些问题的根本原因在于VAE潜在空间的一个关键局限:缺乏清晰的语义分离性与强判别结构。我们的分析证实,这些特性不仅对感知与理解类任务至关重要,也对潜在扩散模型的稳定高效训练具有重要意义。基于这一洞察,我们提出SVG——一种摒弃变分自编码器的新型潜在扩散模型,其利用自监督表示进行视觉生成。SVG通过冻结的DINO特征构建具备明确语义判别能力的特征空间,同时引入轻量级残差分支以捕捉细微细节,实现高保真重建。扩散模型直接在这一语义结构化的潜在空间中进行训练,从而促进更高效的模型学习。实验结果表明,SVG显著提升了扩散模型的训练速度,支持少步采样,并显著改善了生成质量。此外,SVG能够有效保留底层自监督表示的语义与判别能力,为构建通用性强、高质量的视觉表征提供了一条系统化、原理清晰的技术路径。