
要約
複数視点・複数人物の3Dポーズ推定に対する従来のアプローチは、複数のカメラ視点から得られた2Dポーズ検出をグループ化するため、視点間対応関係を明示的に構築し、各人物の3Dポーズを推定する。しかし、複数人物が存在するシーンでは視点間対応関係の確立が困難であり、誤った対応関係は多段階パイプラインの性能を劣化させる。本研究では、平面スウィープステレオ(plane sweep stereo)に基づく単一ショットのアプローチを提案し、視点間融合と3Dポーズ再構成を統合的に解決する。具体的には、ターゲットカメラ視点における各2Dポーズの各関節に対して深度推定を実行する。複数の参照カメラ視点を通じて平面スウィープアルゴリズムにより、視点間の一貫性制約が暗黙的に強制され、正確な深度推定を促進する。本手法は粗い段階から細かい段階へと進むコアス・トゥ・ファイン(coarse-to-fine)スキームを採用し、まず人物レベルの深度を推定した後、各人物ごとの関節レベルでの相対深度を推定する。推定された深度を用いて単純な逆投影により3Dポーズを取得する。我々の手法はベンチマークデータセット上で評価され、従来の最先端手法を上回る性能を発揮するとともに、極めて効率的であることが示された。実装コードは以下のURLで公開されている:https://github.com/jiahaoLjh/PlaneSweepPose。