
要約
歩行者検出において、畳み込みニューラルネットワーク(CNN)と伝統的な手作り特徴量(HOG+LUV)の組み合わせが大きな成功を収めています。一般的に、HOG+LUVは候補提案を生成するために使用され、その後CNNがこれらの提案を分類します。しかし、その成功にもかかわらず、改善の余地があります。例えば、CNNは全結合層の特徴量を使用してこれらの提案を分類しますが、提案スコアやCNNの中間層の特徴量は無視されています。本論文では、この欠点を克服するための統一フレームワークであるマルチレイヤーチャネル特徴量(Multilayer Channel Features, MCF)を提案します。まず、HOG+LUVをCNNの各層と統合し、マルチレイヤー画像チャネルを作成します。このマルチレイヤー画像チャネルに基づいて、多段階カスケードAdaBoostが学習されます。多段階カスケードの各段階における弱分類器は、対応する層の画像チャネルから学習されます。より豊富な特徴量により、MCFはCaltech歩行者データセットで最先端の性能(10.40% の見逃し率)を達成しています。新しい正確なアノテーションを使用することで、MCFは7.98% の見逃し率を達成しています。多くの非歩行者の検出ウィンドウが最初の数段階で迅速に排除されるため、検出速度は1.43倍向上しています。また、最初の段階後で低スコアを持つ高重複度の検出ウィンドウを除去することで、性能低下をおそらくない範囲で4.07倍高速化されています。