
要約
多ラベル画像認識は、実用的な用途を持つ挑戦的なコンピュータビジョンのタスクです。しかし、この分野での進展はしばしば複雑な手法、重い計算負荷、そして直感的な説明の欠如によって特徴づけられています。異なるカテゴリに属する物体が占める異なる空間領域を効果的に捉えるために、我々は非常に単純なモジュールであるクラス固有残差注意(Class-Specific Residual Attention: CSRA)を提案します。CSRAは、単純な空間注意スコアを提案することで各カテゴリに対してクラス固有の特徴を生成し、それをクラス非依存の平均プーリング特徴と組み合わせます。CSRAは多ラベル認識において最先端の結果を達成しており、同時にそれらよりもずっと単純です。さらに、たった4行のコードで、追加の学習なしに多くの異なる事前学習済みモデルやデータセットに対して一貫した改善をもたらします。CSRAは実装が簡単であり、計算量も軽く、直感的な説明や可視化も可能です。