
単眼3Dヒューマンポーズ推定は近年進歩を遂げています。多くの手法は単一の人物に焦点を当てており、対象人物の中心に基づく座標系(つまり、人物中心座標)でポーズを推定します。したがって、これらの手法は多人数の3Dポーズ推定には適用できません。多人数の3Dポーズ推定では、絶対座標(例:カメラ座標)が必要となるため、単一のポーズ推定よりも困難です。さらに、人物間の遮蔽や密接な人間の相互作用により、多人数のポーズ推定はより一層難しくなります。既存のトップダウン型多人数ポーズ推定手法は、人物検出(つまり、トップダウンアプローチ)に依存しており、検出エラーによって影響を受けやすく、多人数シーンでの信頼性のあるポーズ推定を生成することができません。一方で、人物検出を使用しないボトムアップ型手法は検出エラーの影響を受けませんが、シーン内のすべての人を一度に処理するため、特に小規模な人物に対して誤りが発生しやすいという問題があります。これらの課題に対処するために、私たちはトップダウンとボトムアップアプローチを統合することを提案します。私たちのトップダウンネットワークは画像パッチ内の1つの人物ではなくすべての人物からヒューマンジョイントを推定することで、誤ったバウンディングボックスに対するロバスト性を持たせます。また、私たちのボトムアップネットワークは人間検出に基づく正規化されたヒートマップを取り入れることで、スケール変動に対するロバスト性を向上させます。最後に、トップダウンとボトムアップネットワークから得られた3Dポーズ推定値は最終的な3Dポーズを得るために私たちの統合ネットワークに入力されます。訓練データとテストデータ間での一般的なギャップに対処するために、テスト時に最適化を行い、高次元時間制約や再投影損失および骨長正則化を使用して3Dヒューマンポーズ推定値を精緻化します。私たちの評価結果は提案手法の有効性を示しています。コードとモデルは以下のURLから入手可能です:https://github.com/3dpose/3D-Multi-Person-Pose.