
要約
多ラベル画像認識は、単一ラベルの画像分類に比べて実用的でありながらも挑戦的な課題です。しかし、従来の研究では、多数のオブジェクト提案や複雑な注意領域生成モジュールにより、最適な結果が得られていない可能性があります。本論文では、人間が物体を認識する方法と同様に、全体的な画像から局所的な領域まで多カテゴリの物体を認識するためのシンプルかつ効率的な二つのストリームを備えたフレームワークを提案します。全体と局所のストリーム間のギャップを埋めるために、注意領域の数を最小限に抑えつつその多様性を最大限に保つことを目指したマルチクラス注意領域モジュール(multi-class attentional region module)を提案します。当手法は計算コストが適度でパラメータフリーの領域局在化モジュールを使用することで、効率的かつ効果的に多クラス物体を認識できます。三つのベンチマークデータセットにおいて、ラベル依存性なしに画像セマンティクスのみを使用した単一モデルで新たな最先端の結果を作り出しました。さらに、グローバルプーリング戦略、入力サイズ、ネットワークアーキテクチャなどの異なる要因下でも提案手法の有効性が広範囲にわたって示されています。コードは \url{https://github.com/gaobb/MCAR} で公開されています。