18 天前
TransIFC:感知不变线索的特征聚焦学习用于高效细粒度鸟类图像分类
{You-Fu Li, Zhaoli Zhang, Tingting Liu, Bochen Xie, Yongjian Deng, Cheng Zhang, Hai Liu}
摘要
细粒度鸟类图像分类(Fine-grained Bird Image Classification, FBIC)不仅在濒危鸟类观测与保护中具有重要意义,同时也是多媒体处理与计算机视觉领域中图像分类任务的常见挑战。然而,FBIC面临诸多难题,例如鸟类换羽、复杂背景以及姿态任意性等。为有效应对这些挑战,本文提出一种新颖的不变特征感知特征聚焦Transformer(Invariant Cues-aware Feature Concentration Transformer, TransIFC),旨在从鸟类图像中学习具有不变性与核心判别性的信息。为此,本文设计了两个创新模块,以充分利用鸟类图像的固有特性:层级阶段特征聚合模块(Hierarchy Stage Feature Aggregation, HSFA)与特征中的特征抽象模块(Feature in Feature Abstraction, FFA)。HSFA模块通过拼接多层特征,实现对鸟类图像多尺度信息的有效聚合;FFA模块则基于判别得分进行特征选择,从而提取鸟类图像中具有不变性的关键线索。同时,采用Transformer作为主干网络,以捕捉鸟类图像中长距离依赖的语义关系。此外,本文提供了丰富的可视化结果,验证了HSFA与FFA模块在TransIFC中的可解释性。大量实验表明,TransIFC在CUB-200-2011数据集上取得了91.0%的准确率,在NABirds数据集上达到90.9%的性能,均达到当前最优水平。最后,为进一步验证方法的泛化能力,本文在Stanford Cars数据集上进行了扩展实验,结果表明该方法在其他细粒度视觉分类任务中也展现出良好的适用潜力。