2ヶ月前

深層畳み込みネットワークにおける空間ピラミッドプーリングによる視覚認識

Kaiming He; Xiangyu Zhang; Shaoqing Ren; Jian Sun
深層畳み込みネットワークにおける空間ピラミッドプーリングによる視覚認識
要約

既存の深層畳み込みニューラルネットワーク(CNN)は、固定サイズ(例:224x224)の入力画像を必要とします。この要件は「人工的」であり、任意のサイズやスケールの画像や部分画像の認識精度を低下させる可能性があります。本研究では、このような要件を排除するために、「空間ピラミッドプーリング」という新たなプーリング戦略をネットワークに導入しました。新しいネットワーク構造であるSPP-netは、画像のサイズやスケールに関わらず固定長の表現を生成することができます。ピラミッドプーリングは物体変形にも堅牢です。これらの利点により、SPP-netは一般的にすべてのCNNベースの画像分類手法を改善するはずです。ImageNet 2012データセットにおいて、我々はSPP-netが異なる設計を持つ様々なCNNアーキテクチャに対して精度向上をもたらすことを示しています。Pascal VOC 2007およびCaltech101データセットでは、単一の全画像表現を使用し、微調整を行わないことで最先端の分類結果を達成しています。また、SPP-netは物体検出においても大きな威力を発揮します。SPP-netを使用することで、全体画像から特徴マップを一度だけ計算し、その後任意の領域(部分画像)で特徴量をプーリングして固定長の表現を生成して検出器の学習に利用できます。この方法により、畳み込み特徴量を繰り返し計算する必要がなくなります。テスト画像処理において、当方法はR-CNN方法よりも24〜102倍高速でありながら、Pascal VOC 2007での精度は同等かそれ以上となっています。ImageNet大規模視覚認識チャレンジ(ILSVRC)2014において、当チームの手法は38チーム中物体検出部門で第2位、画像分類部門で第3位となりました。本稿では、この競技向けに行われた改良についても紹介しています。

深層畳み込みネットワークにおける空間ピラミッドプーリングによる視覚認識 | 最新論文 | HyperAI超神経