
摘要
我们提出了一种新型且高效的Transformer架构——GANformer,并将其应用于视觉生成建模任务。该网络采用二分图结构,能够在图像中实现长距离交互,同时保持线性复杂度的计算效率,从而可轻松扩展至高分辨率图像生成。GANformer通过在一组潜在变量与动态演化视觉特征之间迭代传播信息,相互促进彼此的优化,从而支持对象与场景的组合性表征的自发形成。与经典Transformer架构不同,GANformer采用乘法融合机制,能够实现灵活的区域化调制,因此可被视为成功模型StyleGAN的推广与拓展。我们在多种数据集上进行了严谨评估,涵盖模拟的多物体环境以及丰富的真实世界室内与室外场景,结果表明,该模型在图像质量与多样性方面均达到当前最优水平,同时具备快速学习能力与更高的数据利用效率。进一步的定性与定量实验深入揭示了模型内部工作机制,显示出更强的可解释性与更优的表征解耦能力,充分验证了本方法的优势与有效性。模型的开源实现已发布于:https://github.com/dorarad/gansformer。