
要約
大姿勢変動は、実世界の顔検出が直面する課題の一つであり、引き続き大きな挑戦となっています。本研究では、この課題に対処するために新しいカスケード型畳み込みニューラルネットワーク(CNN)を提案し、これを監督変換ネットワーク(Supervised Transformer Network)と名付けました。最初の段階はマルチタスク型領域提案ネットワーク(Region Proposal Network: RPN)で、候補となる顔領域と関連する顔のランドマークを同時に予測します。次に、検出された顔のランドマークを標準位置にマッピングすることで、候補領域を歪め(ワープ)、顔パターンをより適切に正規化します。第二段階ではRCNNが使用され、ワープされた候補領域が有効な顔かどうかを確認します。我々はカスケード型ネットワーク全体のエンドツーエンド学習を行い、これには顔のランドマークの標準位置の最適化も含まれます。この変換の監督学習により、自動的に顔と非顔パターンを区別する最良のスケールが選択されます。ネットワークの両段階から特徴マップを組み合わせることで、複数の公開ベンチマークにおいて最先端の検出精度を達成しました。リアルタイム性能のために、ブースティングカスケード型顔検出器によって生成された興味領域に対してのみカスケード型ネットワークを実行します。VGA解像度画像に対して単一CPUコアで30 FPSでの動作が可能です。