
要約
私たちは、フィードフォワード畳み込みニューラルネットワーク向けの単純かつ効果的な注意モジュールである畳み込みブロック注意モジュール(Convolutional Block Attention Module: CBAM)を提案します。中間特徴マップが与えられた場合、当該モジュールはチャンネルと空間という2つの異なる次元に沿って順次的に注意マップを推論し、その後、これらの注意マップを入力特徴マップに乗算して適応的な特徴リファインメントを行います。CBAMは軽量で汎用的なモジュールであり、わずかなオーバーヘッドで任意のCNNアーキテクチャにシームレスに統合でき、ベースCNNとともにエンドツーエンドで学習可能です。私たちはImageNet-1K、MS COCO検出、VOC 2007検出データセットにおいて広範な実験を通じてCBAMの有効性を検証しました。実験結果は、様々なモデルでの分類および検出性能の一貫した向上を示しており、CBAMの広範な適用可能性を証明しています。本研究で使用したコードおよびモデルは公開される予定です。