
制約のない顔部位置合わせ(unconstrained face alignment)のための手法は、2つの要件を満たす必要がある。第一に、正確な初期化や顔検出に依存してはならない。第二に、顔の姿勢の全範囲にわたって同等の性能を発揮しなければならない。現時点において、これらの要件を満たす程度に優れた手法は存在しないと考えられる。本論文では、これらの課題に対処するための特別に設計された畳み込みニューラルネットワーク(CNN)アーキテクチャ、すなわち「局所的証拠の畳み込み的集約(Convolutional Aggregation of Local Evidence: CALE)」を提案する。特に、正確な顔検出を必要としないようにするため、本システムはまず顔部位の検出を行い、各顔ランドマークの位置に関する信頼度スコア(局所的証拠)を出力する。次に、これらのスコアマップとCNNの初期段階の特徴量を、共同回帰(joint regression)によって統合することで、ランドマークの位置を精緻化する。この際、CNNによる回帰は、グラフィカルモデルとしての役割を果たすだけでなく、特に極端な姿勢におけるランドマークの遮蔽(occlusion)状況においても、周囲のコンテキストを活用して位置を予測するようネットワークを導くという重要な機能を担っている。本システム全体は、中間監視(intermediate supervision)を用いたエンド・ツー・エンドの訓練により学習される。AFLW-PIFAという、これまでに公開された中で最も挑戦的な顔位置合わせベンチマークデータセットに適用した結果、従来の最新手法と比較して、極端な姿勢における顔位置合わせにおいて、位置精度が50%以上向上した。人間の顔にとどまらず、動物の顔に見られるような形状や外見の極端な変化に対しても、CALEが有効であることを実証した。