2ヶ月前

画像から身体を回帰するための学習:微分可能な意味論的レンダリングを使用して

Dwivedi, Sai Kumar ; Athanasiou, Nikos ; Kocabas, Muhammed ; Black, Michael J.
画像から身体を回帰するための学習:微分可能な意味論的レンダリングを使用して
要約

単眼画像から3次元の人間の体型と姿勢(例:SMPLパラメータ)を回帰する学習は、通常、3次元の訓練データが利用できない場合に2次元のキーポイント、シルエット、および/または部位セグメンテーションの損失を利用します。しかし、これらの損失は制限があります。なぜなら、2次元のキーポイントは体型を監督せず、着衣した人の部位セグメンテーションは最小限の着衣状態で投影されたSMPL形状と一致しないからです。より豊かな画像情報を着衣した人間から活用するために、我々は衣服に関する高レベルな意味情報を取り入れて、着衣部分と非着衣部分に対して異なるペナルティを与える方法を提案します。これを行うために、新しい微分可能な意味レンダリング(Differentiable Semantic Rendering - DSR)損失を使用して体型回帰器を訓練します。最小限の着衣部分については、DSR-MC損失を定義し、レンダリングされたSMPL体型と画像上の最小限の着衣部分との間に緊密な一致を促進します。着衣部分については、DSR-C損失を定義し、レンダリングされたSMPL体型が衣服マスク内に存在することを促進します。エンドツーエンドでの微分可能な訓練を確保するために、数千人の着衣した人間スキャンからSMPL頂点に対する意味的な衣服事前分布(semantic clothing prior)を学習します。我々は広範な定性的および定量的実験を行い、衣服の意味情報が3次元人間姿勢と体型推定の精度に果たす役割を評価しました。結果として、3DPWとHuman3.6Mにおいてこれまでの最先端手法すべてを超える性能を達成し、MPI-INF-3DHPでも同等の結果を得ました。研究用コードおよび学習済みモデルはhttps://dsr.is.tue.mpg.de/で公開されています。