
要約
キーポイント検出は、顔のモデリング、認識、および認証などのタスクにおいて最も重要な前処理ステップの一つです。本論文では、制約のない顔のキーポイント推定と姿勢予測を行うための効率的なH-CNN回帰器(KEPLER: Keypoint Estimation and Pose prediction of unconstrained faces by Learning Efficient H-CNN Regressors)を用いた反復的手法について述べます。この手法は、顔合わせ問題に対処することを目的としています。最近の最先端手法では、畳み込みニューラルネットワーク(CNNs)を用いることで顔キーポイント検出に改善が見られています。単純なフィードフォワードニューラルネットワークは入力空間と出力空間の間のマッピングを学習できますが、内在する構造的依存関係を学習することはできません。そこで、我々は構造化された全局および局所特徴を捉え、より正確なキーポイント検出を可能にする新しいアーキテクチャであるH-CNN(ヒートマップ-CNN)を提案します。H-CNNは、顔の可視性、ランドマーク、および3次元姿勢に対して共同で訓練されます。反復が進むにつれて誤差が減少し、勾配が小さくなるため、DCNNs(深層畳み込みニューラルネットワーク)の効率的な訓練が必要となります。KEPLERは最初の4回の反復で全局的な修正を行い、その後の段階で局所的な修正を行います。副産物として、KEPLERは顔の3次元姿勢(ピッチ角、ヨー角、ロール角)も正確に提供します。本論文では、3次元情報を使わずにKEPLERがAFWやAFLWのような挑戦的なデータセットでの合わせ精度において最先端手法を超えることを示しています。