
摘要
在自然语言处理领域取得成功之后,自注意力机制(Transformer)被引入视觉领域,并在近期取得了显著成果。与此同时,作为另一研究方向,多层感知机(MLP)也受到视觉领域的广泛关注。相较于传统的卷积神经网络(CNN),这些新型架构近年来吸引了大量研究关注,并涌现出众多相关方法。本文提出一种结合参数高效性与性能优势,同时兼顾局部性与层次结构的新型视觉模型——gSwin。该模型融合了两条技术路径:Swin Transformer 与(多头)gMLP。实验结果表明,在图像分类、目标检测和语义分割三项视觉任务上,gSwin 在模型规模更小的前提下,均取得了优于Swin Transformer的精度表现。