7ヶ月前

概要

顔のアライメントは、画像上で既知の意味を持つ一連のランドマークポイントを見つけることを指します。しかし、2Dアプローチではランドマークが可視境界に移動されるか、顔の姿勢が変化する際に無視されることが多いため、これらのランドマークポイントの意味はしばしば失われてしまいます。大範囲の姿勢間で一貫したアライメントポイントを抽出するためには、アライメントステップにおいて顔の3D構造を考慮する必要があります。しかし、単一の2D画像から3D構造を抽出することは通常、最初にアライメントを行う必要があるため困難です。本稿では、3D空間変換ネットワーク（3DSTN）を用いてカメラ射影行列と3Dモデルのワープパラメータをモデル化し、顔の3D形状と意味論的に一貫した2Dアライメントを同時に抽出する新しい手法を提案します。汎用的な3Dモデルと薄板スプライン（TPS）ワープ関数を使用することで、大量の3D形状ベースを必要とせずに被験者固有の3D形状を生成することが可能となります。さらに、提案されたネットワークは300W-LPデータセットから完全に合成データに対してエンドツーエンドフレームワークで学習することができます。他の3D手法とは異なり、当手法はネットワークを通じて一度だけ処理を行うことでリアルタイムよりも高速なアライメントを実現しています。Annotated Facial Landmarks in the Wild (AFLW)およびAFLW2000-3Dデータセットでの評価結果によると、当手法は他の3Dアライメント手法に対して最先端の性能を達成していることが示されています。

ソースPDF