6 个月前

摘要

ImageNet大规模视觉识别挑战赛（ILSVRC）是近年来计算机视觉（CV）领域最具权威性的学术竞赛之一。然而，直接将ILSVRC年度冠军模型应用于细粒度视觉分类（Fine-Grained Visual Categorization, FGVC）任务时，难以取得理想性能。这是由于FGVC任务中类别间差异较小、类内差异较大，因而具有较高挑战性。为此，我们提出注意力目标定位模块（Attention Object Location Module, AOLM），可预测目标物体的位置；同时引入注意力部分提议模块（Attention Part Proposal Module, APPM），能够在无需边界框或部件标注的情况下，自动提出具有信息量的局部区域。由此获得的图像样本中，目标图像几乎包含物体的完整结构，同时保留更多细节；局部区域图像则涵盖多种尺度，蕴含更丰富的细粒度特征；而原始图像则完整呈现目标对象。我们采用多分支网络对这三类训练图像进行联合监督。因此，所提出的多分支、多尺度学习网络（Multi-Branch and Multi-Scale Learning Network, MMAL-Net）在不同尺度图像上均展现出优异的分类能力与鲁棒性。本方法支持端到端训练，同时具备较短的推理时间。大量实验结果表明，该方法在CUB-200-2011、FGVC-Aircraft和Stanford Cars等多个基准数据集上均取得了当前最优（state-of-the-art）的性能表现。相关代码将开源，地址为：https://github.com/ZF1044404254/MMAL-Net。

源 PDF