Command Palette
Search for a command to run...
聚合金字塔视觉Transformer:无卷积图像识别中的分治-变换-合并策略
聚合金字塔视觉Transformer:无卷积图像识别中的分治-变换-合并策略
Rui-Yang Ju Ting-Yu Lin Jen-Shiun Chiang Jia-Hao Jian Yu-Shian Lin Liu-Rui-Yi Huang
摘要
得益于Transformer在自然语言处理领域的显著成就,其编码器-解码器结构与注意力机制已被广泛引入计算机视觉领域。近年来,在图像分类、目标检测、语义分割等多个计算机视觉任务中,当前最先进的卷积神经网络开始借鉴Transformer的相关思想,这一趋势充分表明Transformer在图像识别领域具有广阔的发展前景。自视觉Transformer(Vision Transformer, ViT)提出以来,越来越多的研究工作开始尝试完全用自注意力机制替代传统的卷积层。本文基于Vision Transformer架构,结合金字塔结构,引入Split-transform-merge机制,提出一种分组编码器(group encoder),并构建了名为聚合金字塔视觉Transformer(Aggregated Pyramid Vision Transformer, APVT)的网络架构。我们在CIFAR-10数据集上开展图像分类任务,在COCO 2017数据集上进行目标检测任务。实验结果表明,相较于其他以Transformer作为主干网络的模型,APVT在保持优异性能的同时,显著降低了计算成本。我们期望这一改进策略能为未来计算机视觉领域中Transformer架构的研究提供有益参考。