17 天前

用于文本到图像合成的向量量化扩散模型

Shuyang Gu, Dong Chen, Jianmin Bao, Fang Wen, Bo Zhang, Dongdong Chen, Lu Yuan, Baining Guo

摘要

我们提出了一种用于文本到图像生成的向量量化扩散模型（Vector Quantized Diffusion, VQ-Diffusion）。该方法基于向量量化变分自编码器（VQ-VAE），其潜在空间采用近期提出的去噪扩散概率模型（Denoising Diffusion Probabilistic Model, DDPM）的条件变体进行建模。实验表明，该潜在空间方法在文本到图像生成任务中表现出色，不仅克服了现有方法中存在的单向性偏差问题，还能够引入“掩码与替换”扩散策略，有效避免误差累积这一严重问题。与参数量相近的传统自回归（Autoregressive, AR）模型相比，VQ-Diffusion 在生成质量上显著优于后者。相较于以往基于生成对抗网络（GAN）的文本到图像方法，VQ-Diffusion 能够处理更为复杂的场景，并在图像合成质量上实现大幅提升。此外，我们证明通过重参数化技术，可显著提高图像生成的计算效率。传统自回归方法的文本到图像生成时间随输出图像分辨率呈线性增长，即使在常规图像尺寸下也极为耗时。而 VQ-Diffusion 在保持高质量生成的同时，实现了更优的质量与速度权衡。实验结果表明，采用重参数化技术后，VQ-Diffusion 模型的生成速度比传统自回归方法快约十五倍，同时图像质量更优。