
要約
最近の進展にもかかわらず、単眼動画からの3D多人物姿勢推定は、遮蔽、部分的にフレーム外の人々、および人物検出の不正確さによって引き起こされる情報不足という一般的な問題により、依然として困難を伴っています。この問題に対処するため、我々はカメラ中心の3D多人物姿勢をカメラパラメータを必要とせずに堅牢に推定する新しいフレームワークを提案します。特に、既存のグラフ畳み込みネットワーク(GCNs)とは異なり、2D姿勢推定器の信頼度スコアを使用して姿勢推定結果を改善するための有向グラフに基づいたヒューマンジョイントGCNを導入します。また、ヒューマンボーンGCNも導入し、骨接続をモデル化することでヒューマンジョイントを超えた更多信息を提供します。これら2つのGCNが協調して動作し、ターゲットフレーム内の可視的なジョイントとボーン情報を活用して遮蔽または欠落している人体部位情報を推定します。さらに3D姿勢推定を洗練するために、時間畳み込みネットワーク(TCNs)を使用して時間的制約と人間ダイナミクス制約を強制します。フレーム間での人物中心の3D姿勢を推定するために関節TCNを使用し、連続フレーム間での3D姿勢推定の一貫性を確保するために速度TCNを提案します。最後に、複数人物の3D人体姿勢を推定するために、カメラパラメータを必要とせずにカメラ中心の3D姿勢を推定するルートTCNを提案します。定量的および質的評価により、提案手法の有効性が示されています。