摘要
近年来,视觉Transformer(Vision Transformers, ViTs)在细粒度视觉分类(Fine-Grained Visual Recognition, FGVC)任务中得到了广泛研究,并已成为该领域的最新技术前沿。然而,大多数基于ViT的方法忽略了多头自注意力(Multi-Head Self-Attention, MHSA)机制中各注意力头以及不同网络层之间学习性能的差异性。针对上述问题,本文提出一种新型的内部集成学习Transformer(Internal Ensemble Learning Transformer, IELT),用于提升FGVC任务的性能。所提出的IELT包含三个核心模块:多头投票(Multi-Head Voting, MHV)模块、跨层精炼(Cross-Layer Refinement, CLR)模块以及动态选择(Dynamic Selection, DS)模块。为解决多头之间性能不一致的问题,本文设计了MHV模块,将每一层中的所有注意力头视为弱学习器,基于注意力图与空间关系,对具有判别性的区域进行投票,生成跨层特征表示。为进一步挖掘跨层特征并抑制噪声,提出CLR模块,该模块通过特征精炼机制提取高质量特征,并引入辅助logits操作以增强最终预测能力。此外,新设计的DS模块通过加权方式动态调整每一层中被选中的token数量,以优化精炼特征的贡献度。通过将集成学习的思想融入ViT架构,IELT有效提升了细粒度特征的表达能力。大量实验结果表明,该方法在五个主流FGVC数据集上均取得了与当前最先进方法相媲美的性能。相关源代码已公开,可访问GitHub获取:https://github.com/mobulan/IELT。