
要約
従来のCNN特徴を使用する多段階フレームワークと比較して、最近の細分化認識のためのエンドツーエンド深層アプローチは、CNNの中間レベル学習能力を本質的に向上させています。以前のアプローチでは、補助ネットワークを導入することで主分類ネットワークに位置情報を取り込むか、または高次の特徴統計量を捉える複雑な特徴符号化方法によってこれを達成していました。我々は、追加の部位やバウンディングボックスの注釈なしでクラス固有の識別的なパッチを捉える畳み込みフィルタバンクを学習することにより、CNNフレームワーク内で中間レベル表現学習が強化できることを示しています。このようなフィルタバンクは、良好に構造化され、適切に初期化され、新しい非対称マルチストリームアーキテクチャと畳み込みフィルタ監督および非ランダムレイヤー初期化を通じて識別的に学習されます。実験結果は、我々のアプローチが3つの公開された細分化認識データセット(CUB-200-2011, Stanford Cars, FGVC-Aircraft)において最先端の性能を達成していることを示しています。また、アブレーションスタディと可視化が提供されており、我々のアプローチを理解するために役立っています。