Command Palette
Search for a command to run...
CrossViT:用于图像分类的交叉注意力多尺度视觉Transformer
CrossViT:用于图像分类的交叉注意力多尺度视觉Transformer
Chun-Fu Chen Quanfu Fan Rameswar Panda
摘要
近年来发展的视觉Transformer(Vision Transformer, ViT)在图像分类任务上相比卷积神经网络(CNN)取得了令人瞩目的成果。受此启发,本文研究了如何在Transformer模型中学习多尺度特征表示以提升图像分类性能。为此,我们提出了一种双分支Transformer架构,通过融合不同尺寸的图像块(即Transformer中的token)来生成更具表现力的图像特征。该方法采用两条独立分支分别处理小尺寸块和大尺寸块的token,两条分支具有不同的计算复杂度,随后通过多次纯注意力机制进行特征融合,实现互补增强。为进一步降低计算开销,我们设计了一种简单而高效的token融合模块,基于交叉注意力机制,每个分支仅使用一个代表性token作为查询,与其他分支进行信息交互。该交叉注意力机制在计算和内存复杂度上均仅需线性时间,而非传统方法的二次方时间。大量实验表明,我们的方法在性能上优于或媲美多个同期提出的视觉Transformer模型,同时在计算效率上也优于主流的高效CNN模型。例如,在ImageNet1K数据集上,经过少量架构调整后,我们的方法在仅带来少量至中等程度的浮点运算量(FLOPs)和模型参数增加的情况下,显著超越了近期的DeiT模型,性能提升达2%。相关源代码与预训练模型已公开,可访问:\url{https://github.com/IBM/CrossViT}。