
要約
我々は、正確かつ効率的な物体検出のための領域ベースの完全畳み込みネットワークを提案します。従来のFast/Faster R-CNNなどの領域ベースの検出器が、高コストな領域ごとのサブネットワークを数百回適用するのに対し、我々の検出器はほぼすべての計算を画像全体で共有する完全畳み込み型です。この目標を達成するために、画像分類における位置不変性と物体検出における位置変性というジレンマを解決するために位置感応スコアマップを提案します。これにより、最新のResidual Networks (ResNets)などの完全畳み込み型画像分類器バックボーンを物体検出に自然に採用することができます。101層のResNetを使用してPASCAL VOCデータセット(例:2007年のセットで83.6% mAP)において競争力のある結果を示しています。さらに、テスト時の速度は1枚あたり170ミリ秒で、Faster R-CNNと比較して2.5〜20倍速い結果を得ています。コードは公開されており、以下のURLからアクセスできます:https://github.com/daijifeng001/r-fcn