2ヶ月前

単一のカラー画像から3次元ヒューマンポーズと形状を推定する学習

Georgios Pavlakos; Luyang Zhu; Xiaowei Zhou; Kostas Daniilidis
単一のカラー画像から3次元ヒューマンポーズと形状を推定する学習
要約

本研究は、単一のカラー画像から全身の3次元人間の姿勢と形状を推定する問題に取り組んでいます。この課題では、反復最適化に基づく手法が一般的に優れていましたが、Convolutional Networks(ConvNets)は訓練データの不足と低解像度の3次元予測のために苦戦していました。我々の研究はこのギャップを埋めることを目指し、効率的かつ効果的な直接予測方法を提案します。この方法はConvNetsに基づいています。我々のアプローチにおける中心的な部分は、パラメトリック統計的体型モデル(SMPL)をエンドツーエンドフレームワーク内に組み込むことです。これにより非常に詳細な3次元メッシュ結果を得ることができ、同時に推定すべきパラメータ数が少ないため、ネットワークによる直接予測に適しています。興味深いことに、我々は2Dキーポイントとマスクのみからこれらのパラメータを信頼性高く予測できることを示しています。これらは一般的な2D人間解析用ConvNetsの典型的な出力であり、3次元形状の真値を持つ画像が必要であるという大規模な訓練要件を緩和することができます。また、訓練時に微分可能な状態を維持することで、推定されたパラメータから3次元メッシュを生成し、3次元頂点ごとの損失関数を使用して表面に対して明示的に最適化を行います。最後に、微分可能なレンダラーを使用して3次元メッシュを画像上に投影し、投影結果と2Dアノテーション(すなわち2Dキーポイントやマスク)の一貫性に対する最適化を通じてネットワークのさらなる改良を行います。提案されたアプローチはこのタスクにおいて従来の基準を超えており、単一のカラー画像から3次元形状を直接予測する魅力的な解決策を提供しています。