2ヶ月前

M2Det: 多段階特徴ピラミッドネットワークに基づく単一ショットオブジェクト検出器

Qijie Zhao; Tao Sheng; Yongtao Wang; Zhi Tang; Ying Chen; Ling Cai; Haibin Ling
M2Det: 多段階特徴ピラミッドネットワークに基づく単一ショットオブジェクト検出器
要約

特徴ピラミッドは、最新の単段階物体検出器(例:DSSD、RetinaNet、RefineDet)と二段階物体検出器(例:Mask R-CNN、DetNet)で広く利用されています。これらの物体検出器は、スケール変動による問題を軽減するために特徴ピラミッドを使用していますが、バックボーンが実際には物体分類タスクのために設計されているため、その多スケール・ピラミダル構造に単純に従って特徴ピラミッドを構築するだけであるという制限があります。本研究では、異なるスケールの物体検出に効果的な特徴ピラミッドを構築する方法として、マルチレベル特徴ピラミッドネットワーク(MLFPN: Multi-Level Feature Pyramid Network)を提案します。まず、バックボーンによって抽出された複数レベルの特徴(すなわち複数層)をベース特徴として融合します。次に、このベース特徴を交互に配置された薄型U字型モジュールと特徴融合モジュールのブロックに入力し、各U字型モジュールのデコーダ層を物体検出用の特徴として利用します。最後に、同等のスケール(サイズ)を持つデコーダ層を集約して物体検出用の特徴ピラミッドを開発します。このとき、各特徴マップは複数レベルからの層(特徴)で構成されます。提案したMLFPNの有効性を評価するために、SSDアーキテクチャに統合して強力なエンドツーエンドの単段階物体検出器M2Detを開発し訓練しました。これによりM2Detは最新の単段階検出器よりも優れた検出性能を達成しています。具体的には、MS-COCOベンチマークにおいて、シングルスケール推論戦略を使用した場合APが41.0で速度は11.8 FPSであり、マルチスケール推論戦略を使用した場合はAPが44.2となっています。これは単段階検出器の中で新しい最先端結果です。コードは \url{https://github.com/qijiezhao/M2Det} で公開される予定です。