CBNet:オブジェクト検出のための新たなコンポジットバックボーンネットワークアーキテクチャ

既存のCNNベースの検出器において、バックボーンネットワークは基本的な特徴抽出に極めて重要な役割を果たしており、検出器の性能はその背後にあるバックボーンに大きく依存している。本論文では、ResNetやResNeXtといった既存のバックボーンを基に、より強力なバックボーンを構築することにより、より優れた検出性能を達成することを目的とする。具体的には、隣接する複数の同一バックボーン間を複合接続(composite connections)で結合する新たな戦略を提案し、これを「複合バックボーンネットワーク(Composite Backbone Network, CBNet)」と命名する。この方式により、CBNetは段階的に、前のバックボーンの出力特徴(すなわち高レベル特徴)を次のバックボーンへの入力特徴の一部としてフィードバックし、最終的に最後のバックボーン(「リードバックボーン(Lead Backbone)」と呼ばれる)の特徴マップを物体検出に用いる。本研究では、CBNetが多数の最先端検出器に容易に統合可能であり、性能を顕著に向上させることを示した。例えば、COCOデータセットにおいて、FPN、Mask R-CNN、Cascade R-CNNのmAPをそれぞれ約1.5~3.0ポイント向上させた。また、実験結果から、インスタンスセグメンテーションの性能向上も確認された。特に、ベースライン検出器としてCascade Mask R-CNNに提案するCBNetを単純に統合した場合、単一モデルでCOCOデータセットにおいてmAP 53.3という新たな最先端の結果を達成した。これは、提案するCBNetアーキテクチャの極めて高い有効性を示している。コードは https://github.com/PKUbahuangliuhe/CBNet にて公開予定である。