3ヶ月前

DenseRaC:密度的なレンダリング・アンド・コンペアによる連合3Dポーズおよび形状推定

Yuanlu Xu, Song-Chun Zhu, Tony Tung
DenseRaC:密度的なレンダリング・アンド・コンペアによる連合3Dポーズおよび形状推定
要約

本稿では、単眼RGB画像から3次元人体ポーズとボディシェイプを同時に推定する新たなエンドツーエンドフレームワークであるDenseRaCを提案する。本手法は2段階のアプローチを採用し、ボディピクセルと表面の対応マップ(すなわちIUVマップ)を代理表現として用い、パラメトリックな人体ポーズおよびシェイプの推定を行う。具体的には、推定されたIUVマップを入力として、3次元ボディ再構成損失を最適化する深層ニューラルネットワークを構築し、さらに「レンダリングと比較」スキームを統合することで、入力画像とレンダリング出力との差異を最小化する。この差異は、密なボディランドマーク、ボディパーツマスク、および敵対的 priors(事前知識)の観点から評価される。学習の効率を向上させるために、ウェブクロールされたモーションキャプチャデータ、3次元スキャン、アニメーションを活用して、大規模な合成データセット(MOCA)を構築した。生成されたデータは多様なカメラ視点、人体動作、およびボディシェイプをカバーしており、完全な真値(ground truth)とペアで提供されている。本モデルは、ハイブリッドデータセットから3次元人体の表現を統合的に学習することで、非ペアド(unpaired)な訓練データの問題を緩和する。実験の結果、DenseRaCは様々な人間関連タスクを対象とした公開ベンチマークにおいて、最先端の手法と比較して優れた性能を達成することが示された。