8 个月前

摘要

近年来发展的视觉Transformer（Vision Transformer, ViT）在图像分类任务上相比卷积神经网络（CNN）取得了令人瞩目的成果。受此启发，本文研究了如何在Transformer模型中学习多尺度特征表示以提升图像分类性能。为此，我们提出了一种双分支Transformer架构，通过融合不同尺寸的图像块（即Transformer中的token）来生成更具表现力的图像特征。该方法采用两条独立分支分别处理小尺寸块和大尺寸块的token，两条分支具有不同的计算复杂度，随后通过多次纯注意力机制进行特征融合，实现互补增强。为进一步降低计算开销，我们设计了一种简单而高效的token融合模块，基于交叉注意力机制，每个分支仅使用一个代表性token作为查询，与其他分支进行信息交互。该交叉注意力机制在计算和内存复杂度上均仅需线性时间，而非传统方法的二次方时间。大量实验表明，我们的方法在性能上优于或媲美多个同期提出的视觉Transformer模型，同时在计算效率上也优于主流的高效CNN模型。例如，在ImageNet1K数据集上，经过少量架构调整后，我们的方法在仅带来少量至中等程度的浮点运算量（FLOPs）和模型参数增加的情况下，显著超越了近期的DeiT模型，性能提升达2%。相关源代码与预训练模型已公开，可访问：\url{https://github.com/IBM/CrossViT}。

源 PDF