17 天前
SparseSwin:基于稀疏Transformer块的Swin Transformer
Krisna Pinasthika, Blessius Sheldo Putra Laksono, Riyandi Banovbi Putera Irsal, Syifa Hukma Shabiyya, Novanto Yudistira

摘要
计算机视觉研究的进展已使Transformer架构成为计算机视觉任务中的最新技术标准。然而,Transformer架构的一个已知缺陷是参数量过大,这可能导致算法更加复杂且效率低下。本文旨在减少模型参数数量,从而提升Transformer架构的效率。为此,我们提出了一种改进的Transformer模块——稀疏Transformer模块(SparTa Block),该模块引入了一个稀疏令牌转换器(sparse token converter),有效减少了处理的令牌(token)数量。我们将SparTa Block嵌入到Swin-T架构中,构建了SparseSwin模型,充分利用Swin架构下采样的能力,降低初始输入令牌的数量,从而减少计算负担。实验结果表明,所提出的SparseSwin模型在图像分类任务中表现优异,在ImageNet100、CIFAR10和CIFAR100数据集上的准确率分别达到86.96%、97.43%和85.35%,显著优于当前其他先进模型。尽管参数量更少,该结果充分展示了基于稀疏令牌转换器、以有限令牌数量运行的Transformer架构在优化计算资源利用与提升性能方面的巨大潜力。