17 天前

MDTv2：掩码扩散Transformer是一种强大的图像合成模型

Shanghua Gao, Pan Zhou, Ming-Ming Cheng, Shuicheng Yan

摘要

尽管在图像生成方面取得了显著成功，我们观察到扩散概率模型（Diffusion Probabilistic Models, DPMs）往往缺乏对图像中物体各部分之间上下文关系的建模能力，导致学习过程缓慢。为解决这一问题，我们提出了一种掩码扩散Transformer（Masked Diffusion Transformer, MDT），通过引入一种掩码潜在表示建模机制，显式增强DPMs在图像语义部件之间进行上下文关系学习的能力。在训练过程中，MDT在潜在空间中对部分标记（tokens）进行掩码处理，并设计了一种非对称扩散Transformer，从未掩码的标记中预测被掩码的标记，同时保持扩散生成过程的完整性。该方法能够仅凭不完整的上下文输入重建图像的完整信息，从而有效学习图像标记之间的关联关系。为进一步提升效率，我们提出了改进版本MDTv2，采用更高效的宏观网络结构与训练策略。实验结果表明，MDTv2在图像生成性能上达到新SOTA水平，例如在ImageNet数据集上取得了1.58的FID分数，且训练速度比此前的SOTA模型DiT快逾10倍。相关源代码已开源，地址为：https://github.com/sail-sg/MDT。