11日前
Sparse R-CNN:学習可能なプロポーザルを用いたエンドツーエンド型オブジェクト検出
Peize Sun, Rufeng Zhang, Yi Jiang, Tao Kong, Chenfeng Xu, Wei Zhan, Masayoshi Tomizuka, Lei Li, Zehuan Yuan, Changhu Wang, Ping Luo

要約
我々は、画像内の物体検出に向けた完全にスパースな手法であるSparse R-CNNを提案する。従来の物体検出手法は、画像特徴マップ(サイズ $H \times W$)のすべてのグリッド上に事前に定義された $k$ 個のアンカー箱(anchor boxes)といった密度的な物体候補に大きく依存している。一方、本手法では、固定されたスパースな学習可能な物体候補集合(総数 $N$)を物体認識ヘッドに供給し、分類と位置推定を実行する。これにより、$HWk$(最大数十万個に及ぶ)の手動設計された物体候補を、$N$(例:100)個の学習可能な候補に置き換えることで、物体候補設計に関するあらゆる作業や、多数対一のラベル割り当ての問題を完全に回避できる。さらに重要なのは、最終的な予測が非最大抑制(non-maximum suppression, NMS)の後処理を経ることなく直接出力されることである。Sparse R-CNNは、挑戦的なCOCOデータセットにおいて、既存の代表的な検出器ベースラインと同等の精度、実行速度、および学習収束性能を達成している。具体的には、標準的な $3\times$ 訓練スケジュール下で45.0 APを達成し、ResNet-50 FPNモデルを用いて22 fpsの実行速度を実現している。本研究が、物体検出器における密度的な事前知識(dense prior)の従来の枠組みを再考するきっかけとなることを期待している。コードは以下のURLから公開されている:https://github.com/PeizeSun/SparseR-CNN。