
摘要
与早期使用卷积神经网络(CNN)特征的多阶段框架相比,近期用于细粒度识别的端到端深度方法在本质上增强了CNN的中层学习能力。以往的方法通过引入辅助网络将定位信息注入主分类网络,或者采用复杂的特征编码方法来捕捉更高阶的特征统计信息来实现这一点。我们证明,在CNN框架内,可以通过学习一组捕获类别特定判别性区域的卷积滤波器来增强中层表示学习,而无需额外的部分或边界框注释。这种滤波器组结构良好、初始化恰当,并通过一种新颖的非对称多流架构进行判别性学习,该架构包括卷积滤波器监督和非随机层初始化。实验结果表明,我们的方法在三个公开可用的细粒度识别数据集(CUB-200-2011、Stanford Cars 和 FGVC-Aircraft)上达到了最先进的水平。此外,我们还提供了消融研究和可视化分析,以帮助理解我们的方法。