
3D顔モデリングの分野には、高精度手法と低精度手法の間に大きなギャップが存在する。高精度な手法では、最高水準の顔アニメーションは人間と見分けがつかないほど自然であるが、その代わりに膨大な手作業が必要となる。一方、低精度な手法では、一般消費者向け深度センサによる顔キャプチャは、自然な顔の形状や表情の多様性を十分に表現できない3D顔モデルに依存している。本研究では、数千枚の正確にアライメントされた3Dスキャンデータから顔モデルを学習することで、中間的なアプローチを提案する。我々が開発したFLAMEモデル(Faces Learned with an Articulated Model and Expressions)は、既存のグラフィックスソフトウェアと互換性があり、データへの適合が容易であることを設計の柱としている。FLAMEは、3800枚の人体頭部スキャンデータから学習された線形形状空間を基盤としている。この線形形状空間に、関節構造を備えた下顎、首、眼球の動き、ポーズ依存の補正ブレンドシェイプ、および追加のグローバルな表情ブレンドシェイプを統合している。ポーズおよび表情に依存する関節構造は、D3DFACSデータセットに含まれる4D顔シーケンスおよび追加の4Dシーケンスから学習された。我々は、テンプレートメッシュをスキャンシーケンスに正確に登録し、その登録結果を研究目的で公開している。総計33,000枚以上のスキャンデータを用いてモデルを訓練した。FLAMEは次元数が低く抑えられている一方で、FaceWarehouseモデルやBasel Face Modelよりも高い表現力を持つ。同じ最適化手法を用いて、静的3Dスキャンおよび4Dシーケンスに各モデルを適合させ、それらと比較した結果、FLAMEが顕著に高い精度を示した。本モデルは研究目的で公開されている。