表現体のモデレーションを用いた協調回帰

画像から表現豊かな人間を再現することは、人間の行動を理解する上で重要です。3Dボディ、顔、または手の推定方法は大幅に進歩しましたが、それぞれ独立して発展してきました。顔の推定方法は正確な3D形状と幾何学的な詳細を再現できますが、狭い範囲のクロップが必要で、極端な視点や低解像度では苦戦します。全身の推定方法は様々なポーズや解像度に対して堅牢ですが、しわなどの詳細を含まない粗い3D顔形状しか提供できません。両者の長所を活かすために、私たちは単一画像からアニメーション可能なリアルな顔詳細を持つ全身3Dアバターを生成するPIXIE(ピクシー)を提案します。この目的のために、PIXIEは2つの重要な観察に基づいています。第一に、既存の手法では身体、顔、手の専門家からの独立した推定結果を同等に信頼し、結合していました。PIXIEは新しいモデレーターを導入し、各専門家の信頼度に基づいて特徴量を重み付けして統合します。SMPL-Xの全部位共有形状空間を使用することで、すべての部位専門家が全体に貢献できます。第二に、人間の形状は性別と高度に関連していますが、既存の研究ではこれが無視されています。私たちは訓練画像を男性、女性、またはノンバイナリーとしてラベル付けし、「性別の考慮された」3Dボディ形状を推定するために新しい形状損失関数を使用してPIXIEを訓練しました。さらに3Dボディポーズと形状パラメータだけでなく、表情、照明条件、アルベド(反射率)、および3D顔表面変位も推定します。定量的および定性的評価により、PIXIEが最先端技術よりもより正確な全身形状と詳細な顔形状を推定できることを示しています。モデルとコードは https://pixie.is.tue.mpg.de で公開されています。