17日前

細粒度視覚認識におけるグローバル共分散プーリングの固有値について

Yue Song, Nicu Sebe, Wei Wang
細粒度視覚認識におけるグローバル共分散プーリングの固有値について
要約

細粒度視覚分類(Fine-Grained Visual Categorization, FGVC)は、クラス間の微細な差異を捉えることが困難であるため、非常に挑戦的な課題である。近年の代表的な研究アプローチとして、二次統計量を用いた強力な表現を学習するためのグローバル共分散プーリング(Global Covariance Pooling, GCP)層の利用が挙げられる。この手法はクラス間の差異を効果的にモデル化できることが知られている。我々の前回の会議論文においては、GCPの共分散行列の小さな固有値を切り捨てることで、勾配の滑らかさが向上し、大規模なベンチマークにおいて性能が向上することを示した。しかし、細粒度データセットでは、小さな固有値を切り捨てるという処理がモデルの収束を妨げることが明らかになった。これは、一般的に「小さな固有値はノイズや重要でない情報に対応している」という仮定と矛盾する。したがって、それらを無視しても性能にほとんど影響を与えないはずである。この特異な挙動を解明するために、我々は2つの帰属分析(attribution)手法を提案した。その可視化結果から、表面上は重要でないように見える小さな固有値が、クラス固有の判別的特徴を抽出する上で極めて重要な役割を果たしていることが明らかになった。この知見を踏まえ、小さな固有値の重要性を強調するための専用ネットワークブランチを提案する。追加パラメータを一切導入せずに、小さな固有値を単に拡大するのみで、3つの細粒度ベンチマークにおいてGCP手法の最良性能を達成した。さらに、より大規模なデータセットにおいても、他のFGVCアプローチと比較して競争力のある性能を示した。コードは以下のURLから公開されている:\href{https://github.com/KingJamesSong/DifferentiableSVD}{https://github.com/KingJamesSong/DifferentiableSVD}。