
要約
顔合わせ(フェイスアライメント)は、画像に顔モデルを適合させて顔のピクセルの意味的な情報を抽出する技術であり、コンピュータビジョン分野において重要な研究課題となっています。しかし、多くのアルゴリズムは小規模から中規模の姿勢(ヨー角が45度未満)の顔向けに設計されており、大規模な姿勢(最大90度)の顔を合わせる能力に欠けています。この問題には3つの難しさがあります。第一に、一般的に使用されるランドマーク顔モデルはすべてのランドマークが可視であることを前提としているため、大規模な姿勢には適していません。第二に、正面から横顔までの大規模な姿勢では、顔の外観が著しく変化します。第三に、大規模な姿勢でのランドマークのラベリングは非常に困難であり、不可視なランドマークを推測する必要があります。本論文では、これらの3つの難しさに対処するために新しいアライメントフレームワークである3次元高密度顔合わせ(3D Dense Face Alignment: 3DDFA)を提案します。このフレームワークでは、カスケード畳み込みニューラルネットワーク(Cascaded Convolutional Neural Networks: CCNNs)を通じて画像に高密度3次元モーファブルモデル(3D Morphable Model: 3DMM)を適合させます。また、3次元情報を活用して横顔などのプロファイルビューの顔画像を合成し、豊富な訓練サンプルを提供します。AFLWデータベースにおける実験結果は、提案手法が最先端の方法よりも大幅な改善を達成していることを示しています。