2ヶ月前

豊富な特徴階層構造を用いた高精度な物体検出と意味分割

Ross Girshick; Jeff Donahue; Trevor Darrell; Jitendra Malik

要約

PASCAL VOCデータセットを基準とした物体検出の性能は、最近数年間で頭打ちとなっています。最高の性能を発揮する手法は、複雑なアンサンブルシステムであり、通常は低レベルの画像特徴と高レベルのコンテキストを組み合わせています。本論文では、平均精度（mean average precision, mAP）をVOC 2012におけるこれまでの最良結果に対して相対的に30%以上向上させる単純かつスケーラブルな検出アルゴリズムを提案します。この手法により、mAPが53.3%に達しました。我々のアプローチは以下の2つの重要な洞察に基づいています：(1) 高容量の畳み込みニューラルネットワーク（CNNs）をボトムアップの領域提案に適用することで、物体を局所化およびセグメンテーションできる。(2) ラベル付き訓練データが少ない場合、補助タスクに対する教師あり事前学習を行い、その後ドメイン固有の微調整を行うことで、大幅な性能向上が得られる。ボトムアップの領域提案とCNNsを組み合わせているため、我々の方法をR-CNN（Regions with CNN features）と呼びます。また、同様のCNNアーキテクチャに基づく最近提案されたスライディングウィンドウ型検出器であるOverFeatとの比較も行いました。ILSVRC2013検出データセットにおいて200クラスで評価した結果、R-CNNはOverFeatよりも大幅に優れた性能を示しました。本システムに関するソースコードはhttp://www.cs.berkeley.edu/~rbg/rcnnから入手可能です。