F2DNet:Pedestrian Detectionのための高速焦点検出ネットワーク

2段階検出器は、物体検出および歩行者検出の分野において、現在の最先端技術である。しかし、現在の2段階検出器は、領域提案ネットワーク(region proposal network)とボックスヘッド(bounding box head)の複数ステップにわたりバウンディングボックス回帰を実行するため、効率が低いという問題がある。さらに、アンカーに基づく領域提案ネットワークは、学習に非常に高い計算コストを要する。本研究では、領域提案ネットワークを新たな「フォーカル検出ネットワーク」(focal detection network)に置き換え、ボックスヘッドを「高速抑制ヘッド」(fast suppression head)に置き換えることで、従来の2段階検出器における冗長性を解消する新しい2段階検出アーキテクチャ、F2DNetを提案する。F2DNetは、代表的な歩行者検出データセット上で評価され、既存の最先端検出器と包括的な比較が行われ、また異なるデータセット間での評価を通じて、未知のデータに対するモデルの汎化能力を検証した。単一データセットでの学習において、F2DNetはCity Persons、Caltech Pedestrian、Euro City Personsデータセットでそれぞれ8.7%、2.2%、6.1%のMR-2(マスキング率-2)を達成した。また、プログレッシブなファインチューニングを用いた場合、Caltech PedestrianおよびCity Personsデータセットの重度の隠蔽状況において、それぞれ20.4%および26.2%のMR-2を達成した。さらに、現在の最先端手法と比較して、F2DNetは顕著に少ない推論時間を実現している。コードおよび学習済みモデルは、https://github.com/AbdulHannanKhan/F2DNet にて公開される予定である。