
要約
本稿では、画像への3次元人体形状のフィッティングを目的とした新たなアルゴリズムを提案する。反復的な勾配ベース最適化手法の精度および細部調整能力と、深層ニューラルネットワークのロバスト性を統合することで、各反復ステップにおいてニューラルネットワークを用いてパラメータ更新規則を予測する勾配降下法を構築した。このパラメータごとかつ状態を意識した更新則により、わずか数ステップで良好な解へ収束することができ、通常は非常に少ない反復回数で収束を達成する。訓練段階では、SMPLによってパラメータ化された人体ポーズのモーションキャプチャ(MoCap)データのみを必要とする。このデータからネットワークは、最適化をより効率的に行うための有効なポーズおよび形状の部分空間を学習する。本手法は、取得が困難な画像と3D対応点間の対応情報(image-to-3D correspondences)を一切不要とする。テスト時には、追加の事前知識や正則化項を用いずに、2D関節の再投影誤差のみを最適化する。実証的に、本アルゴリズムは高速(平均120msでの収束)、初期値やデータセットに対してロバストであり、挑戦的な野外環境ベンチマークである3DPWにおいても最先端の性能を達成している(SMPLifyよりも45%の改善)。さらに、画像と3D対応点を用いる既存手法に近い精度にも到達していることが示された。