17日前

動画における人体ポーズ推定のための検出とトラッキングの統合

Manchen Wang, Joseph Tighe, Davide Modolo
動画における人体ポーズ推定のための検出とトラッキングの統合
要約

我々は、動画における多人数の人体ポーズ推定およびトラッキング問題に取り組むための新しいトップダウンアプローチを提案する。既存のトップダウン手法とは異なり、本手法は人物検出器の性能に制限されず、局所化されていない人物インスタンスのポーズも予測可能である。この能力を実現するため、既知の人物位置を時間軸上で前向きおよび後向きに伝播させ、その領域内でポーズを探索する。本手法は以下の3つの構成要素からなる:(i) 小規模な動画クリップ上で体関節の検出とトラッキングを同時に行う「Clip Tracking Network」;(ii) Clip Tracking Networkが生成する固定長のトラッケットを任意長のトラックに統合する「Video Tracking Pipeline」;(iii) 空間的および時間的平滑化項を用いて関節位置を精緻化する「Spatial-Temporal Merging手順」。Clip Tracking Networkの高精度と統合手順の効果により、本手法は非常に正確な関節位置の予測を実現し、人物が強く重なり合った困難なシナリオにおいても一般的な誤りを修正できる。PoseTrack 2017および2018データセットにおいて、トップダウンおよびボトムアップアプローチを問わず、関節検出およびトラッキングの両面で最先端の性能を達成した。

動画における人体ポーズ推定のための検出とトラッキングの統合 | 最新論文 | HyperAI超神経