17日前

細粒度視覚カテゴリ化およびオブジェクト再識別を 위한デュアルクロスアテンション学習

Haowei Zhu, Wenjing Ke, Dong Li, Ji Liu, Lu Tian, Yi Shan
細粒度視覚カテゴリ化およびオブジェクト再識別を 위한デュアルクロスアテンション学習
要約

最近、自己注意メカニズム(self-attention)は自然言語処理(NLP)およびコンピュータビジョン(CV)の多様なタスクにおいて優れた性能を示しており、順序特性の捉え込みとグローバルな情報を得るのに有効である。本研究では、細粒度物体(たとえば、異なる鳥種や人物の識別)を認識するための微細な特徴埋め込みをより効果的に学習するため、自己注意モジュールをどのように拡張できるかを検討する。そのために、自己注意学習と連携するための二重クロス注意学習(Dual Cross-Attention Learning, DCAL)アルゴリズムを提案する。まず、グローバル画像と局所的な高応答領域間の相互作用を強化する「グローバル-ローカルクロス注意(Global-Local Cross-Attention, GLCA)」を提案する。これにより、認識に有用な空間的な識別的特徴を強化することができる。次に、画像ペア間の相互作用を構築する「ペアワイズクロス注意(Pair-wise Cross-Attention, PWCA)」を提案する。PWCAは、ある画像の注意学習を、別の画像をノイズ(干渉要因)として扱うことで正則化するものであり、推論フェーズでは削除される。実験の結果、DCALは誤った注意の発生を低減し、注意応答を分散させることで、認識に有益な補完的な領域をより多く発見できることを確認した。本研究では、細粒度視覚分類およびオブジェクト再識別(re-identification)のタスクにおいて広範な評価を実施した。実験結果から、DCALは最先端の手法と同等の性能を発揮するとともに、複数の自己注意ベースライン(例:DeiT-TinyおよびViT-Base)を一貫して向上させることを示した。特にMSMT17データセットにおいて、それぞれ2.8%および2.4%のmAP向上を達成した。