
要約
画像と対応するカテゴリラベルから構成される学習データセットに対して、深層畳み込みニューラルネットワーク(CNN)は、画像分類に役立つ差別的な部分を抽出する強力な能力を示しています。しかし、画像レベルのラベルのみで訓練された深層CNNは、最も差別的な部分に焦点を当てがちであり、他の物体の部分を見落としてしまう傾向があります。これらの他の部分は補完的な情報を提供できる可能性があります。本論文では、この問題を異なる視点から取り組んでいます。深層CNNによって検出された支配的な物体部分によって抑制される情報を取り出すために、弱い教師あり方法で補完的な部分モデルを構築します。画像レベルのラベルのみを使用して、Mask R-CNNとCRFベースのセグメンテーションを利用して弱い教師あり物体検出とインスタンスセグメンテーションを行い、粗い物体インスタンスを抽出します。次に、可能な限り多様性を保つという原則に基づいて、各物体インスタンスに対する最適な部分モデルを推定し探索します。最後の段階では、双方向長短期記憶(Bi-LSTM)ネットワークを構築し、これらの補完的な部分の局所情報を包括的な特徴量に融合・符号化します。実験結果は、提案手法が基準モデルに対して有意な改善を達成しているだけでなく、Stanford Dogs 120, Caltech-UCSD Birds 2011-200, Caltech 256において最新のアルゴリズムに対して大幅に優れた性能(それぞれ6.7%, 2.8%, 5.2%)を示していることを示しています。