
要約
無制約環境における顔検出とアライメントは、様々な姿勢、照明条件、および遮蔽の影響により困難を極めています。最近の研究では、これらの課題に対して深層学習アプローチが優れた性能を達成できることを示しています。本論文では、これらの間の内在的な相関関係を利用して性能向上を図る深層カスケードマルチタスクフレームワークを提案します。特に、当該フレームワークは粗略から精密へと段階的に顔位置とランドマーク位置を予測する3つの深層畳み込みニューラルネットワーク(CNN)から構成されるカスケード構造を採用しています。さらに、学習過程において、手動でのサンプル選択なしに性能を自動的に向上させる新しいオンラインハードサンプルマイニング戦略を提案します。当手法はFDDBおよびWIDER FACEベンチマークで顔検出の課題に対し、AFLWベンチマークで顔アライメントの課題に対し、最先端技術よりも優れた精度を達成しながらリアルタイム性能を維持しています。