
要約
細分化認識における部位ベースのアプローチは、極めて類似したクラスを区別する上で重要な微細な特徴に明示的に注目するにもかかわらず、グローバルな手法に対して期待される性能向上を示さない。我々は、部位ベースの手法が、部位の順序に依存しない局所特徴の表現を欠いていることにより性能が制限されていると仮定する。このような局所特徴は、可視部位の数が変動しても適切に処理できるべきである。実際、部位の順序は人工的に定義されるものであり、多くの場合、真値ラベル(ground-truth annotations)にのみ依存している。一方、視点の変化や遮蔽(occlusion)により、一部の部位が観測不可能となる。この問題を解決するため、畳み込みニューラルネットワーク(CNN)に部位特徴のフィッシャー・ベクトル符号化(Fisher vector encoding)を統合する手法を提案する。この符号化のパラメータは、ニューラルネットワークのパラメータと同時にオンラインEMアルゴリズムによって推定され、従来の手法における推定値よりも高い精度を達成する。本手法は、3つの鳥類分類データセットにおいて、既存の最先端性能を向上させた。