
高解像度入力における特徴マップの解像度と受容野の間にある矛盾する要件をどう扱うかは、物体検出において依然として未解決の課題である。本論文では、この問題に取り組むため、注意機構を用いて多パス特徴を統合することで、さまざまな大規模受容野から判別性の高い情報を活用する新しいアーキテクチャ、すなわち「注意誘導型コンテキスト特徴ピラミッドネットワーク(Attention-guided Context Feature Pyramid Network: AC-FPN)」を提案する。本モデルは2つのモジュールから構成されている。1つ目は、複数の受容野から大規模な文脈情報を探索する「コンテキスト抽出モジュール(Context Extraction Module: CEM)」である。冗長な文脈的関係は物体の局所化や認識を誤導する可能性があるため、2つ目のモジュールとして「注意誘導モジュール(Attention-guided Module: AM)」を設計した。AMは注意機構を用いて物体周辺の顕著な依存関係を適応的に捉えることができる。AMは、それぞれ判別的意味情報を捉えることと、正確な位置情報を定位することに焦点を当てた2つのサブモジュール、すなわち「コンテキスト注意モジュール(Context Attention Module: CxAM)」と「コンテンツ注意モジュール(Content Attention Module: CnAM)」から構成されている。最も重要な点として、本AC-FPNは既存のFPNベースのモデルに容易に統合可能である。物体検出およびインスタンスセグメンテーションにおける広範な実験により、本研究で提案するCEMおよびAMを導入した既存モデルが、それらを導入しない対応モデルを著しく上回ることを確認した。さらに、本モデルは最先端の性能を達成した。ソースコードは、https://github.com/Caojunxu/AC-FPN にて公開している。