1ヶ月前
3D画像から3D顔形状と表情を回帰する学習方法——3D監督なしで
Soubhik Sanyal; Timo Bolkart; Haiwen Feng; Michael J. Black

要約
単一画像から3次元顔形状を推定する際には、照明、頭の向き、表情、ひげ、化粧、および遮蔽物などの変動に堅牢である必要があります。堅牢性は、実世界の画像の大規模な学習セットを必要としますが、その構造上、真の3次元形状が欠如しています。2Dから3Dへの監視なしでネットワークを学習させるために、RingNetを提案します。RingNetは単一画像から3次元顔形状を計算することを学びます。我々の主要な観察点は、個々の人の顔形状は表情や姿勢、照明などに関係なく画像間で一定であるということです。RingNetは同一人物の複数の画像と自動検出された2D顔特徴を利用し、新しい損失関数を使用して学習します。この損失関数は同一人物では顔形状が類似し、異なる人物では異なることを促進します。表情に対する不変性はFLAMEモデルを使用して達成されます。学習が完了すると、当手法は単一画像を受け取りFLAMEのパラメータを出力します。これらのパラメータは容易にアニメーション化できます。さらに、「ほぼ実世界」(Not Quite in-the-Wild: NoW)という新しい顔データベースを作成しました。このデータベースには多様な条件下での被験者の3次元頭部スキャンと高解像度画像が含まれています。公開されている手法との評価を行い、RingNetが3次元監視情報を使用する手法よりも精度が高いことが確認されました。データセット、モデルおよび結果は研究目的のためにhttp://ringnet.is.tuebingen.mpg.de で利用可能です。