CBNet:オブジェクト検出のためのコンポジットバックボーンネットワークアーキテクチャ

現代の高性能物体検出器は、バックボーンネットワークに大きく依存しており、その進展はより効果的なネットワーク構造を探索することで一貫した性能向上をもたらしている。本論文では、事前学習済みのオープンソースバックボーンを活用し、事前学習後の微調整(pre-training fine-tuning)枠組みのもとで高性能な検出器を構築するための、新しい柔軟性を持つバックボーンフレームワークであるCBNetV2を提案する。具体的には、複数の同一バックボーンをグループ化し、複合接続(composite connections)によって接続するCBNetV2のアーキテクチャを設計した。この構造は、複数のバックボーンネットワークの高レベルおよび低レベル特徴を統合し、受容 field(受容野)を段階的に拡大することで、物体検出をより効率的に行う。また、CBNetベースの検出器向けに、補助的な教師信号(assistant supervision)を用いたより優れた学習戦略も提案している。複合バックボーンの追加事前学習を必要とせずに、CBNetV2はCNNベースとTransformerベースの両方のバックボーン、および主流の検出器における多数のヘッド設計(ワンステージ vs. ツーステージ、アンカーに基づく vs. アンカーに依存しない)に対応可能である。実験結果は、単にネットワークの深さや幅を増やすよりも、CBNetV2がより効率的で効果的かつリソースに配慮した高パフォーマンスバックボーンネットワーク構築法であることを強く示している。特に、単一モデル・単一スケールテストプロトコル下で、我々のDual-Swin-LはCOCO test-devにおいてボックスAP 59.4%、マスクAP 51.6%を達成し、Swin-Lが達成した最先端の結果(ボックスAP 57.7%、マスクAP 50.2%)を顕著に上回っている一方で、学習スケジュールは6倍短縮されている。マルチスケールテストを適用した場合、追加の学習データを用いずに、現在の単一モデルの最高記録であるボックスAP 60.1%、マスクAP 52.3%を達成した。コードは https://github.com/VDIGPKU/CBNetV2 で公開されている。