18 天前

用于细粒度图像识别的多注意力卷积神经网络学习

{Jiebo Luo, Jianlong Fu, Heliang Zheng, Tao Mei}
用于细粒度图像识别的多注意力卷积神经网络学习
摘要

细粒度分类(例如鸟类物种识别)高度依赖于判别性局部区域的定位以及基于局部区域的细粒度特征学习。现有方法通常独立处理这两个问题,而忽略了局部区域定位(如鸟类的头部)与细粒度特征学习(如头部形状)之间存在内在关联的事实。为此,本文提出一种基于多注意力卷积神经网络(MA-CNN)的新颖局部区域学习方法,其中局部区域生成与特征学习能够相互促进。MA-CNN由卷积网络、通道分组网络和局部区域分类网络三部分组成。通道分组网络接收卷积层输出的特征通道,通过空间相关性聚类、加权与池化操作,生成多个局部区域;局部区域分类网络则分别对每个生成的局部区域进行分类,从而学习更具判别性的细粒度特征。本文设计了两种损失函数,用于指导通道分组与局部区域分类之间的多任务联合学习,促使MA-CNN能够从特征通道中生成更具判别性的局部区域,并通过局部区域进一步学习更优的细粒度特征,实现双向增强。MA-CNN无需边界框或局部区域标注,支持端到端训练。我们将MA-CNN所学习到的局部区域与部分卷积神经网络(part-CNN)相结合用于分类识别,在三个具有挑战性的公开细粒度数据集(CUB-Birds、FGVC-Aircraft和Stanford-Cars)上均取得了最优性能。