モデル適合を用いた3次元人間の姿勢と形状の再構築学習

モデルベースの人間姿勢推定は現在、2つの異なるパラダイムでアプローチされています。最適化に基づく方法は、パラメトリックな身体モデルを2次元観測に反復的に適合させることで、正確な画像-モデルの対応を達成しますが、しばしば遅く、初期化に敏感です。一方、回帰に基づく方法は、深層ネットワークを使用して直接ピクセルからモデルのパラメータを推定し、合理的な結果(ただしピクセルレベルの精度には達しない)を提供しますが、大量の教師データが必要です。本研究では、どちらのアプローチが優れているかではなく、2つのパラダイムが強力な協力を形成できるという洞察に重点を置いています。ネットワークからの直接的な合理的な推定値は、反復最適化の初期化を行い、適合をより速く且つ正確にすることができます。同様に、反復最適化からのピクセルレベルの精度を持つ適合は、ネットワークにとって強力な教師データとなります。これが我々が提案するアプローチSPIN(SMPL oPtimization IN the loop)の核心部分です。深層ネットワークは訓練ループ内で2次元関節に身体モデルを適合させる反復最適化ルーチンを初期化し、その後その適合結果がネットワークの教師データとして使用されます。我々のアプローチは本質的に自己改善型であり、より良いネットワーク推定値により最適化がより良い解に導かれるとともに、より正確な最適化解によりネットワークに対するより良い教師データが提供されます。我々は3次元真値が希少であるかまたは利用できない異なる設定においても、本アプローチの有効性を示しており、一貫して最新のモデルベースの人間姿勢推定手法よりも大幅に優れた性能を発揮しています。プロジェクトウェブサイト(ビデオ、結果、コードあり)は https://seas.upenn.edu/~nkolot/projects/spin でご覧いただけます。