17 天前

SparseSwin：基于稀疏Transformer块的Swin Transformer

Krisna Pinasthika, Blessius Sheldo Putra Laksono, Riyandi Banovbi Putera Irsal, Syifa Hukma Shabiyya, Novanto Yudistira

摘要

计算机视觉研究的进展已使Transformer架构成为计算机视觉任务中的最新技术标准。然而，Transformer架构的一个已知缺陷是参数量过大，这可能导致算法更加复杂且效率低下。本文旨在减少模型参数数量，从而提升Transformer架构的效率。为此，我们提出了一种改进的Transformer模块——稀疏Transformer模块（SparTa Block），该模块引入了一个稀疏令牌转换器（sparse token converter），有效减少了处理的令牌（token）数量。我们将SparTa Block嵌入到Swin-T架构中，构建了SparseSwin模型，充分利用Swin架构下采样的能力，降低初始输入令牌的数量，从而减少计算负担。实验结果表明，所提出的SparseSwin模型在图像分类任务中表现优异，在ImageNet100、CIFAR10和CIFAR100数据集上的准确率分别达到86.96%、97.43%和85.35%，显著优于当前其他先进模型。尽管参数量更少，该结果充分展示了基于稀疏令牌转换器、以有限令牌数量运行的Transformer架构在优化计算资源利用与提升性能方面的巨大潜力。