17 天前

TransGAN:两个纯Transformer即可构建一个强大的GAN,且具备良好的可扩展性

Yifan Jiang, Shiyu Chang, Zhangyang Wang
TransGAN:两个纯Transformer即可构建一个强大的GAN,且具备良好的可扩展性
摘要

近年来,Transformer模型的迅猛发展引发了广泛关注,预示其在计算机视觉任务中具备成为强大“通用”模型的巨大潜力,涵盖分类、检测与分割等任务。尽管现有研究主要聚焦于判别式模型,本文则将Transformer应用于一些更为复杂棘手的视觉任务,例如生成对抗网络(GANs)。我们的目标是首次开展一项开创性研究,构建一个完全摒弃卷积操作、仅依赖纯Transformer架构的GAN模型。我们提出的原始GAN架构名为TransGAN,其核心由一个内存友好型的Transformer生成器构成,该生成器通过逐步提升特征分辨率来生成图像;相应地,配套设计了一个多尺度判别器,以同时捕捉语义上下文与低层纹理信息。为进一步缓解内存瓶颈,我们引入了一种新型模块——网格自注意力(grid self-attention),从而有效支持TransGAN向高分辨率图像生成任务的扩展。此外,我们还开发了一套独特的训练策略,包含一系列有助于缓解TransGAN训练不稳定性问题的技术,如数据增强、改进的归一化方法以及相对位置编码。实验结果表明,我们的最优架构在性能上与当前基于卷积主干网络的先进GAN模型相比具有高度竞争力。具体而言,在STL-10数据集上,TransGAN取得了10.43的全新最高Inception Score与18.28的FID分数,显著优于StyleGAN-V2。在更高分辨率(如256×256)的生成任务中,例如CelebA-HQ与LSUN-Church数据集,TransGAN仍能持续生成多样化、高保真且纹理细节极为丰富的图像样本。此外,我们深入分析了基于Transformer的生成模型,通过可视化训练动态,揭示其行为模式与传统卷积模型之间的本质差异。相关代码已开源,地址为:https://github.com/VITA-Group/TransGAN。