3 个月前
DiffiT:用于图像生成的扩散视觉Transformer
Ali Hatamizadeh, Jiaming Song, Guilin Liu, Jan Kautz, Arash Vahdat

摘要
具有强大表达能力与高质量生成样本的扩散模型(Diffusion Models)在生成领域已取得最先进的性能(State-of-the-Art, SOTA)。作为开创性工作的视觉Transformer(Vision Transformer, ViT),同样展现出优异的建模能力与可扩展性,尤其在图像识别任务中表现突出。本文研究了ViT在基于扩散模型的生成学习中的有效性,并提出一种新型模型——扩散视觉Transformer(Diffusion Vision Transformers, DiffiT)。具体而言,我们提出了一种精细化控制去噪过程的方法,并引入了时间依赖的多头自注意力机制(Time-dependent Multihead Self-Attention, TMSA)。实验表明,DiffiT在生成高保真图像方面表现出色,且具有显著更高的参数效率。此外,我们还构建了基于潜在空间与图像空间的DiffiT模型,并在多种类别条件与无条件图像合成任务中,于不同分辨率下均实现了SOTA性能。其中,潜在空间DiffiT模型在ImageNet256数据集上取得了1.73的全新SOTA FID得分,同时相比其他基于Transformer的扩散模型(如MDT和DiT),参数量分别减少了19.85%和16.88%。代码已开源:https://github.com/NVlabs/DiffiT