17 天前

ViT带来的免费午餐:用于细粒度视觉识别的自适应注意力多尺度融合Transformer

Yuan Zhang, Jian Cao, Ling Zhang, Xiangcheng Liu, Zhiyi Wang, Feng Ling, Weiqian Chen
ViT带来的免费午餐:用于细粒度视觉识别的自适应注意力多尺度融合Transformer
摘要

在细粒度视觉识别(Fine-Grained Visual Recognition, FGVR)领域,学习物体部件的细微表征具有至关重要的作用。视觉Transformer(Vision Transformer, ViT)凭借其注意力机制在计算机视觉任务中取得了令人瞩目的成果。然而,由于ViT采用固定尺寸的图像块(patch),深层中的类别令牌(class token)主要关注全局感受野,难以生成适用于FGVR的多粒度特征。为在无需边界框标注的情况下捕捉区域注意力,并弥补ViT在FGVR任务中的不足,本文提出一种名为自适应注意力多尺度融合Transformer(Adaptive Attention Multi-scale Fusion Transformer, AFTrans)的新方法。所提出的AFTrans中,选择性注意力聚合模块(Selective Attention Collection Module, SACM)利用ViT内部的注意力权重,并通过自适应方式筛选,使其与输入图像块的相对重要性相匹配。该方法构建了包含全局与局部多尺度的特征提取路径,由共享权重的编码器进行监督,可实现端到端的高效训练。大量实验证明,AFTrans在三个公开的细粒度识别基准数据集——CUB-200-2011、Stanford Dogs和iNat2017上均取得了当前最优(State-of-the-Art, SOTA)的性能表现。