17日前

細粒度視覚分類のためのコンテキスト認識型アテンションプーリング（CAP）

Ardhendu Behera, Zachary Wharton, Pradeep Hewage, Asish Bera

要約

深層畳み込みニューラルネットワーク（CNN）は、画像認識における判別的なオブジェクト姿勢および部位情報の抽出において優れた能力を示している。細粒度認識においては、オブジェクトまたはシーンのコンテキストに配慮した豊かな特徴表現が鍵を握る。これは、同一サブカテゴリ内での顕著な変動および異なるサブカテゴリ間の微細な差異を反映しているためである。同一オブジェクト／シーンを完全に特徴づける微細な差異を特定することは容易ではない。これを解決するために、本研究では、サブピクセル勾配を用いて微細な変化を効果的に捉え、境界ボックスや識別可能な部位のアノテーションを必要とせずに、情報量の多い統合領域およびそれらの識別的意義を学習する、新たなコンテキストに配慮した注意メカニズムプーリング（Context-aware Attentional Pooling, CAP）を提案する。さらに、統合領域の情報量とその空間構造との内在的な一貫性を考慮した新たな特徴符号化手法を導入し、これらの領域間の意味的相関を捉えることを可能にした。本手法は構造が単純でありながら極めて効果的であり、標準的な分類バックボーンネットワークの上に容易に適用可能である。本手法は、6つの最先端（SotA）バックボーンネットワークおよび8つのベンチマークデータセットを用いて評価された結果、6つのデータセットにおいてSotA手法を顕著に上回り、残り2つのデータセットにおいても非常に競争力のある性能を示した。