並列残差双融合特徴ピラミッドネットワークを用いた高精度なシングルショットオブジェクト検出

本論文では、高速かつ高精度な1ショット物体検出を実現するため、並列残差双方向融合特徴ピラミッドネットワーク(Parallel Residual Bi-Fusion Feature Pyramid Network; PRB-FPN)を提案する。近年の視覚的物体検出において、特徴ピラミッド(Feature Pyramid; FP)は広く採用されているが、従来の上向きパス(top-down pathway)では、プーリングによる特徴マップの位置ずれが生じ、正確な局所化を維持できないという問題がある。特に、バックボーンがより深層化(層数が多くなる)するにつれて、FPの利点は顕著に低下する。さらに、小物体と大物体の両方を同時に高精度で検出する能力にも限界がある。これらの課題に対処するため、双方向(上向きおよび下向き)の特徴融合を実現する新しい並列型FP構造と、高品質な特徴を保持するための付加的改善を提案する。具体的な設計改善は以下の通りである:(1)小物体および大物体を同時に高精度で検出可能な、並列双方向融合FP構造を採用し、下向き融合モジュール(Bottom-up Fusion Module; BFM)を導入することで、マルチスケール検出性能を向上させる。(2)連結と再構成(Concatenation and Re-organization; CORE)モジュールを導入し、特徴融合に下向きパスを提供することで、低層特徴マップからの情報損失を回復可能な双方向融合FPを実現する。(3)COREモジュールの出力をさらに精錬(purification)することで、より豊かな文脈情報を保持する。このCORE精錬処理は、上向きおよび下向きパスの両方でわずか数イテレーション内に実行可能である。(4)COREモジュールに残差構造(residual design)を組み込むことで、新たなRe-COREモジュールを構築。これにより、さまざまな深層化または軽量化されたバックボーンとの容易な学習および統合が可能となる。提案手法は、UAVDT17およびMS COCOデータセットにおいて、最先端(state-of-the-art)の性能を達成した。実装コードは以下のURLから公開されている:https://github.com/pingyang1117/PRBNet_PyTorch。