StyleSwin:基于Transformer的GAN用于高分辨率图像生成

尽管在众多视觉任务中取得了令人瞩目的成功,Transformer 模型在高分辨率图像生成建模方面尚未达到与卷积神经网络(ConvNets)相当的性能水平。本文旨在探索仅使用纯 Transformer 构建生成对抗网络(GAN)以实现高分辨率图像合成的可行性。为此,我们认为局部注意力机制对于在计算效率与建模能力之间取得平衡至关重要。因此,所提出的生成器采用基于风格的架构,并引入 Swin Transformer 作为核心组件。为了扩大感受野,我们提出了一种双注意力机制(double attention),该机制同时利用局部窗口与移位窗口的上下文信息,显著提升了生成图像的质量。此外,我们证明了恢复在基于窗口的 Transformer 中丢失的绝对位置信息,对生成质量具有显著促进作用。所提出的 StyleSwin 模型具备良好的可扩展性,能够有效支持高分辨率图像生成,其粗略几何结构与精细纹理均得益于 Transformer 强大的表达能力。然而,在高分辨率合成过程中,由于以块为单位执行局部注意力可能破坏空间连贯性,导致块状伪影(blocking artifacts)的出现。为解决该问题,我们系统地实验了多种解决方案,最终发现采用小波判别器(wavelet discriminator)来检测频域差异,能有效抑制此类伪影。大量实验结果表明,StyleSwin 在性能上显著优于以往基于 Transformer 的 GAN 模型,尤其在高分辨率场景下表现突出,例如在 1024×1024 分辨率上。在无需复杂训练策略的情况下,StyleSwin 在 CelebA-HQ 1024 数据集上的表现超越了 StyleGAN,且在 FFHQ-1024 数据集上达到了与之相当的性能,充分证明了 Transformer 在高分辨率图像生成任务中的巨大潜力。相关代码与模型将公开于 https://github.com/microsoft/StyleSwin。