18 天前

细粒度视觉分类的多分支与多尺度注意力学习

Fan Zhang, Meng Li, Guisheng Zhai, Yizhao Liu
细粒度视觉分类的多分支与多尺度注意力学习
摘要

ImageNet大规模视觉识别挑战赛(ILSVRC)是近年来计算机视觉(CV)领域最具权威性的学术竞赛之一。然而,直接将ILSVRC年度冠军模型应用于细粒度视觉分类(Fine-Grained Visual Categorization, FGVC)任务时,难以取得理想性能。这是由于FGVC任务中类别间差异较小、类内差异较大,因而具有较高挑战性。为此,我们提出注意力目标定位模块(Attention Object Location Module, AOLM),可预测目标物体的位置;同时引入注意力部分提议模块(Attention Part Proposal Module, APPM),能够在无需边界框或部件标注的情况下,自动提出具有信息量的局部区域。由此获得的图像样本中,目标图像几乎包含物体的完整结构,同时保留更多细节;局部区域图像则涵盖多种尺度,蕴含更丰富的细粒度特征;而原始图像则完整呈现目标对象。我们采用多分支网络对这三类训练图像进行联合监督。因此,所提出的多分支、多尺度学习网络(Multi-Branch and Multi-Scale Learning Network, MMAL-Net)在不同尺度图像上均展现出优异的分类能力与鲁棒性。本方法支持端到端训练,同时具备较短的推理时间。大量实验结果表明,该方法在CUB-200-2011、FGVC-Aircraft和Stanford Cars等多个基准数据集上均取得了当前最优(state-of-the-art)的性能表现。相关代码将开源,地址为:https://github.com/ZF1044404254/MMAL-Net。