
摘要
图像生成长期以来是一个备受追求但极具挑战性的任务,而实现高效生成更是难上加难。以往研究者常试图构建一种“通用型”生成器,即在参数空间上对差异显著的不同数据集保持高度一致性。本文提出一种基于Transformer的新框架——StyleNAT,旨在实现高质量图像生成的同时,兼具卓越的效率与灵活性。该模型的核心在于精心设计的注意力机制架构,通过引入邻域注意力(Neighborhood Attention, NA)对注意力头进行划分,从而有效捕捉局部与全局信息。不同注意力头可聚焦于不同感受野,使模型能够更优地融合多尺度信息,并以高度灵活的方式适应各类数据。在FFHQ-256数据集上,StyleNAT取得了2.046的全新SOTA(最先进)FID得分,显著优于基于卷积的模型(如StyleGAN-XL)以及先前的Transformer模型(如HIT与StyleSwin);在FFHQ-1024数据集上,其FID得分为4.174,创下Transformer架构下的新SOTA纪录。与StyleGAN-XL相比,StyleNAT在FFHQ-256上性能提升达6.4%,同时参数量减少28%,采样吞吐量提升56%。相关代码与模型将开源至:https://github.com/SHI-Labs/StyleNAT。