単一画像からの複数人の一貫した再構成

本研究では、単一画像から複数人の3次元姿勢を推定する問題に取り組んでいます。この問題のトップダウン設定における一般的な回帰アプローチは、まず全ての人間を検出し、その後個々に再構築を行うものです。しかし、このような予測は相互貫通やシーン内の人々間での一貫性のない深度順序などの非整合的な結果を引き起こすことがあります。私たちの目標は、これらの問題を回避し、シーン内の全ての人間の連続的な3次元再構築を生成できる単一ネットワークを学習させることです。そのためには、SMPLパラメトリックボディモデル(SMPL parametric body model)をトップダウンフレームワークに組み込むことが重要な設計選択となります。これにより、2つの新しい損失関数を使用することが可能になります。第1に、距離場に基づく衝突損失(distance field-based collision loss)が再構築された人々間の相互貫通を罰則として処理します。第2に、深度順序認識損失(depth ordering-aware loss)が被覆について推論を行い、アノテートされたインスタンスセグメンテーションと一致するレンダリングにつながるような人々の深度順序を促進します。これにより、画像に明示的な3次元アノテーションがなくてもネットワークに対して深度監督信号を提供することができます。実験結果は、提案手法が標準的な3次元姿勢ベンチマークにおいて従来の方法よりも優れていることを示しています。また、提案した損失関数により自然画像でのより連続的な再構築が可能となっています。ビデオや結果、コードなどが掲載されているプロジェクトウェブサイトは以下のURLでご覧いただけます:https://jiangwenpl.github.io/multiperson