
要約
顔合わせ(フェイスアライメント)は、画像に顔モデルを適合させて顔のピクセルから意味的な情報を抽出する技術であり、コンピュータビジョン(CV)コミュニティにおいて重要な研究テーマとなっています。しかし、現行のほとんどのアルゴリズムは小規模から中規模の角度(45度未満)の顔に対して設計されており、大規模な角度(最大90度)の顔を正確に合わせる能力が不足しています。この課題には3つの難点があります。第一に、一般的に使用されるランドマークベースの顔モデルはすべてのランドマークが可視であることを前提としているため、プロファイルビューには適していません。第二に、大規模な角度では顔の外観が前面から横面まで大きく変化します。第三に、大規模な角度でのランドマークのラベリングは非常に困難であり、不可視なランドマークを推測しなければならないからです。本論文では、これらの3つの問題を解決するために新しいアライメントフレームワークである3D Dense Face Alignment (3DDFA) を提案します。このフレームワークでは、畳み込みニューラルネットワーク(CNN)を用いて画像に高密度な3次元顔モデルを適合させます。また、プロファイルビューにおける大量の訓練サンプルを合成する方法も提案し、データラベリングに関する第3の問題を解決しています。挑戦的なAFLWデータベースでの実験結果は、当手法が最先端の方法よりも大幅な改善を達成していることを示しています。