
要約
「ランドマークなし!」――教師なし、モデルベースの高密度顔面アライメント本論文では、画像から画像へのネットワークを学習させることにより、顔画像と3Dモーファブルモデルの間の高密度対応関係を予測する手法を提示する。この手法は、教師信号としてモデルそのもののみを用いることで、従来の教師あり学習に依存せずに学習を実現する。我々は、幾何学的パラメータ(形状、姿勢、カメラ内部パラメータ)および光度的パラメータ(テクスチャ、照明)が、線形最小二乗法と独自の逆球面調和照明モデルを用いて、対応マップから直接推定可能であることを示す。最小二乗残差は、従来の研究でよく見られる収縮や過小適合(conservative underfitting)といったアーティファクトを回避できる教師なし学習信号として機能する。本手法では、パラメータ回帰ネットワークと比較して10倍小さく、画像のアライメントに対する感度が著しく低減され、推論段階で既知のカメラキャリブレーション情報や複数画像の制約を容易に組み込むことが可能である。結果として、従来の最先端手法が用いてきた補助的な教師信号を一切使用せずに、同等以上の性能を達成した。