
要約
本稿では、2次元単一視点画像から3次元顔パラメータを自己教師学習による動画からの学習によって推定するための条件付き推定(Conditional Estimation, CEST)フレームワークを提案する。CESTは「解析による合成(analysis by synthesis)」のプロセスに基づくものであり、顔画像から3次元顔パラメータ(形状、反射率、視点、照明)を推定し、それらを再合成して2次元顔画像を再構成する。明示的なラベルにアクセスできない状況下でも、意味的に有意な3次元顔パラメータを学習するため、CESTは異なる3次元顔パラメータ間の統計的依存関係を考慮してそれらを連携して推定する。具体的には、任意の3次元顔パラメータの推定は、与えられた画像に加えて、すでに推定された顔パラメータにも条件付けられる。さらに、動画フレーム間における反射率の対称性と一貫性を活用することで、顔パラメータの分離性(disentanglement)を向上させている。この反射率の対称性と一貫性を組み込むための新規な戦略と併せることで、CESTは野生環境(in-the-wild)の動画クリップを用いて効率的に学習可能である。定性的および定量的な実験により、CESTの有効性が確認された。