17 天前

全局协方差池化在细粒度视觉识别中的特征值分析

Yue Song, Nicu Sebe, Wei Wang
全局协方差池化在细粒度视觉识别中的特征值分析
摘要

细粒度视觉分类(Fine-Grained Visual Categorization, FGVC)之所以具有挑战性,是因为类别间的细微差异难以捕捉。一种重要的研究方向是采用全局协方差池化(Global Covariance Pooling, GCP)层,通过学习二阶统计特征来获取强大的表示能力,从而有效建模类别之间的差异。在我们之前的会议论文中,我们发现对GCP协方差矩阵的小特征值进行截断,能够获得更平滑的梯度,并提升在大规模基准数据集上的性能。然而,在细粒度数据集上,截断小特征值反而会导致模型无法收敛。这一现象与普遍假设相矛盾:即小特征值仅对应噪声或无关信息,忽略它们对模型性能应影响甚微。为深入诊断这一异常行为,我们提出了两种归因分析方法,其可视化结果表明,看似不重要的小特征值实际上至关重要——它们负责提取具有判别性的类别特异性特征。受此启发,我们设计了一种专用网络分支,旨在增强小特征值的重要性。该分支无需引入任何额外参数,仅通过放大小特征值即可显著提升GCP方法在三个细粒度分类基准上的性能,达到当前最优水平。此外,在更大规模的数据集上,该方法的性能也具备与其它先进FGVC方法相媲美的竞争力。代码已开源,可通过以下链接获取:https://github.com/KingJamesSong/DifferentiableSVD