チャネルに悪魔は宿る:細粒度画像分類のための相互チャネル損失

微細粒度画像分類を解決する鍵は、微細な視覚的特徴に対応する判別性と局所性を持つ領域を見つけることにあります。近年、部位レベルの判別的特徴表現を学習するための特別に設計された複雑なネットワークが開発され、著しい進展が見られています。本論文では、過度に複雑なネットワーク構造や学習メカニズムを用いることなく、微細な特徴を効果的に学習することが可能であることを示します——必要なのは単一の損失関数のみです。その核心的なアイデアは、従来の統合された特徴マップから始めることではなく、初期段階で個々の特徴チャネルに着目することにあります。提案する損失関数である「相互チャネル損失(Mutual-Channel Loss, MC-Loss)」は、2つのチャネル固有の構成要素から成り立っています:判別性成分と多様性成分です。判別性成分は、同一クラスに属するすべての特徴チャネルが判別可能になるように制約するため、新規のチャネルごとのアテンション機構を導入しています。多様性成分は、さらに空間的に各チャネルが互いに排他的になるように制約します。その結果、特定のクラスに対してそれぞれ異なる局所的判別領域を反映する特徴チャネルの集合が得られます。MC-Lossは、バウンディングボックスや部位アノテーションを一切必要とせず、エンドツーエンドで学習可能であり、推論時にも高い判別性を持つ領域を生成します。実験結果によると、一般的なベースネットワーク上にMC-Lossを適用した場合、CUB-Birds、FGVC-Aircraft、Flowers-102、Stanford-Carsの4つの微細粒度分類データセットにおいて、いずれも最先端の性能を達成しています。アブレーション研究により、異なる2つのベースネットワーク上で、他の最近提案された汎用的視覚分類損失関数と比較して、MC-Lossの優位性がさらに裏付けられています。コードは以下のURLから公開されています:https://github.com/dongliangchang/Mutual-Channel-Loss