
要約
歩行者検出は、一般的な物体検出を超えた特別なトピックとして扱われている。最近の深層学習に基づく物体検出器であるFast/Faster R-CNN [1, 2]は、一般的な物体検出において優れた性能を示しているが、歩行者検出では限られた成功しか得られていない。従来の主要な歩行者検出器は、大抵手作業で設計された特徴量と深層畳み込み特徴量を組み合わせたハイブリッド手法であった。本論文では、Faster R-CNN [2]における歩行者検出に関連する問題点を調査した。我々は、Faster R-CNNのRegion Proposal Network (RPN)が単独の歩行者検出器としては実際によく機能することを発見したが、意外にも下流の分類器が結果を悪化させていることがわかった。この不満足な精度の理由として2つ挙げられる:(i) 小さなインスタンスに対処するための特徴マップの解像度が不足していること、(ii) 困難なネガティブ例を掘り下げるための任意のブートストラッピング戦略がないこと。これらの観察結果に基づき、共有された高解像度の畳み込み特徴マップを使用し、RPNに引き続くブーステッドフォレストを利用した非常にシンプルだが効果的な基準モデルを提案する。本手法についてCaltech, INRIA, ETH, KITTIなどの複数のベンチマークで包括的に評価を行い、競争力のある精度と良好な速度を得たことを示す。コードは公開される予定である。