
要約
顔検出は、ViolaとJonesの先駆的な研究以来、最近数十年間で多くの注目を集めています。多くの後続研究では、より強力な学習アルゴリズムを用いてこの研究を改善してきましたが、顔検出に使用される特徴表現は、実世界での大きな外観変動を持つ顔を効果的かつ効率的に処理するための要件を満たすことができていません。このボトルネックを解決するために、私たちはチャネル特徴の概念を顔検出分野に導入しました。これにより、画像チャネルが勾配の大きさや方向性のある勾配ヒストグラムなど多様なタイプに拡張され、単純な形式で豊富な情報を符号化することができます。私たちは新しいバリエーションである集約チャネル特徴(aggregate channel features)を採用し、特徴設計について全面的な探索を行い、性能が向上した多スケール版の特徴を見出しました。実世界での顔の姿勢に対処するために、スコア再順位付けと検出調整を特徴とする多視点検出手法を提案します。Viola-Jonesフレームワークの学習パイプラインに従って、集約チャネル特徴を使用した多視点顔検出器はAFWおよびFDDBテストセットにおいて最先端のアルゴリズムと競合する性能を示し、VGA画像では42 FPSで動作します。