18 天前

一种用于消除细粒度视觉分类中背景干扰的注意力定位算法

{Sam Kwong, Zhengguo Li, Mingliang Zhou, Zhenzhe Hechen, Yueting Huang}
摘要

细粒度视觉分类(Fine-grained Visual Classification, FGVC)是一项具有挑战性的任务,其特点在于类间相似性高而类内差异大,具有广泛的应用前景。近年来,由于视觉Transformer(Vision Transformer, ViT)中的多头自注意力(Multi-head Self-attention, MSA)机制具有数据特异性,能够有效提取判别性特征表示,因此多项研究开始将ViT应用于FGVC任务。然而,现有方法多侧重于在高层层面整合特征依赖关系,导致模型易受低层背景信息的干扰。为解决这一问题,本文提出一种细粒度注意力定位视觉Transformer(Fine-grained Attention-locating Vision Transformer, FAL-ViT)以及一种注意力选择模块(Attention Selection Module, ASM)。首先,FAL-ViT采用两阶段框架,能够有效识别图像中的关键区域,并通过策略性地重用参数来增强特征表示。其次,ASM利用MSA机制固有的注意力得分,精准定位重要目标区域,结合位置映射策略提取更精细的低层特征,从而提供更加全面的信息。在多个公开数据集上的大量实验表明,FAL-ViT在分类性能上优于现有方法,充分验证了所提方法的有效性。相关源代码已开源,地址为:https://github.com/Yueting-Huang/FAL-ViT。