RAMS-Trans:用于细粒度图像识别的循环注意力多尺度Transformer

在细粒度图像识别(Fine-Grained Image Recognition, FGIR)任务中,区域注意力的定位与增强是关键因素,这一问题已通过基于卷积神经网络(CNN)的方法得到了广泛研究。近年来,视觉Transformer(Vision Transformer, ViT)在计算机视觉任务中取得了令人瞩目的成果。与CNN相比,ViT采用图像序列化(image sequentialization)作为全新的处理范式。然而,由于其图像块(patch)尺寸固定,ViT在感受野大小上存在局限,难以像CNN那样有效捕捉局部注意力,也无法生成多尺度特征以学习具有判别性的区域注意力。为在无需边界框或部件标注的情况下,有效学习判别性区域注意力,本文利用ViT自身输出的注意力权重强度来衡量对应原始图像块的语义重要性。为此,我们提出了一种递归注意力多尺度Transformer(Recurrent Attention Multi-scale Transformer, RAMS-Trans),该模型通过Transformer的自注意力机制,以递归方式在多尺度层面学习判别性区域注意力。具体而言,本方法的核心是动态块提议模块(Dynamic Patch Proposal Module, DPPM),该模块通过引导区域注意力的逐步放大,实现多尺度图像块的有效融合。DPPM从全尺寸图像块出发,依据每一尺度下生成的注意力权重强度,自顶向下地迭代放大关注区域,逐步从全局到局部生成新的图像块。该过程无需额外标注,仅依赖ViT固有的注意力权重,且可实现端到端的联合训练。大量实验结果表明,RAMS-Trans在三个主流基准数据集上均取得了当前最优(SOTA)性能,显著优于现有同类方法,包括高效CNN模型,充分验证了其在细粒度图像识别任务中的有效性与优越性。