3ヶ月前
視覚的3次元人体ポーズおよび形状に対するNeural Descent
Andrei Zanfir, Eduard Gabriel Bazavan, Mihai Zanfir, William T. Freeman, Rahul Sukthankar, Cristian Sminchisescu

要約
本研究では、入力となるRGB画像から人物の3次元ポーズおよび形状を再構成するための深層ニューラルネットワーク手法を提示する。我々は、最近導入された表現力豊かな全身統計的3次元人間モデルGHUMを用い、エンド・ツー・エンドに訓練されたモデルに基づき、自己教師付きの枠組みでそのポーズおよび形状パラメータを再構成することを学習する。本手法の中心となるのは、「学習する学習」と「最適化する学習」を統合したアプローチであり、これをHUmanNeural Descent(HUND)と呼ぶ。HUNDは、モデルパラメータの学習時に2階微分(second-order differentiation)を回避するとともに、テスト時に意味論的に微分可能なレンダリング損失を高精度で最小化するために、高コストな状態勾配降下法(state gradient descent)を不要とする。代わりに、ポーズおよび形状パラメータを更新するための新しい再帰的段階(recurrent stages)を導入することで、損失の効果的な最小化だけでなく、プロセス全体に対するメタ正則化(meta-regularization)を実現し、安定した最適化進展(end-progress)を保証する。HUNDは学習段階と推論段階の対称性を有しており、自己教師付きを含むさまざまな運用モードをネイティブにサポートする初めての3次元人間センシングアーキテクチャである。多様な実験において、H3.6Mや3DPWといったデータセットにおいて非常に競争力のある性能を達成し、野外で収集された複雑な画像に対しても高品質な3次元再構成が可能であることを示した。