
摘要
学习细微但具有区分性的特征(例如鸟类的喙和眼睛)在细粒度图像识别中起着重要作用。现有的基于注意力的方法通过定位和放大显著部分来学习细粒度细节,但这通常会受到部分数量有限和计算成本高昂的限制。本文提出了一种高效的教师-学生方法,利用三线性注意力采样网络(Trilinear Attention Sampling Network, TASN)从数百个部分提案中学习此类细粒度特征。具体而言,TASN 包含:1) 三线性注意力模块,该模块通过建模通道间关系生成注意力图;2) 基于注意力的采样器,该采样器以高分辨率突出显示被关注的部分;3) 特征蒸馏器,该蒸馏器通过权重共享和特征保持策略将部分特征提炼为全局特征。大量实验验证了 TASN 在相同设置下优于最具竞争力的方法,在 iNaturalist-2017、CUB-Bird 和 Stanford-Cars 数据集上表现出最佳性能。