
摘要
细粒度视觉分类(FGVC)旨在识别来自相似下级类别的对象,这对于人类的精确自动识别需求具有挑战性和实用性。大多数FGVC方法集中研究注意力机制以挖掘区分性区域,而忽视了这些区域之间的相互依赖关系及其构成的整体对象结构,这些对于模型的区分信息定位和理解能力至关重要。为了解决上述限制,我们提出了结构信息建模变压器(SIM-Trans),将对象结构信息融入变压器中,以增强区分表示学习,使其包含外观信息和结构信息。具体而言,我们将图像编码为一系列补丁标记,并构建了一个强大的视觉变压器框架,其中包含两个精心设计的模块:(i) 结构信息学习(SIL)模块利用变压器的自注意力权重来挖掘对象范围内的显著补丁之间的空间上下文关系,并进一步将其注入模型以导入结构信息;(ii) 多层次特征增强(MFB)模块引入了多层次特征的互补性和类别间的对比学习,以提高特征鲁棒性,实现准确识别。所提出的两个模块轻量且可以轻松插入任何变压器网络并进行端到端训练,仅依赖于视觉变压器本身提供的注意力权重。广泛的实验和分析表明,所提出的SIM-Trans在细粒度视觉分类基准上达到了最先进的性能。代码可在 https://github.com/PKU-ICST-MIPL/SIM-Trans_ACMMM2022 获取。