12日前

TesseTrack: エンド・ツー・エンド学習可能な多人数アーティキュレーテッド3Dポーズトラッキング

{Srinivasa Narasimhan, Jayan Eledath, Leonid Pischulini, Laurent Guigues, N. Dinesh Reddy}
TesseTrack: エンド・ツー・エンド学習可能な多人数アーティキュレーテッド3Dポーズトラッキング
要約

複数の人物が任意の数のカメラ映像から観測される状況における3次元ポーズ推定および追跡の課題を検討する。本研究では、複数人物の3次元ボディジョイント再構成と、空間・時間にわたる対応付けを、一括かつエンドツーエンド学習可能なフレームワーク内で同時に行う、新たなトップダウンアプローチであるTesseTrackを提案する。本手法の核となるのは、単一または複数のカメラビューから集約された共通のボクセル化特徴空間で動作する、新規の空間時系列定式化である。人物検出を経て、4次元CNNが短期間の人物固有の表現を生成し、その後、微分可能なマッチャーによって時間軸にわたってこれらの表現を連結する。連結された記述は統合され、デコンボリューションにより3次元ポーズに復元される。この統合的な空間時系列定式化は、従来の分離型戦略と対照的であり、2次元ポーズ推定、2次元から3次元へのリフティング、3次元ポーズ追跡を独立したサブ問題として扱うものであるが、これらを個別に解くと誤差が蓄積しやすくなる。さらに、従来の手法とは異なり、TesseTrackはカメラビュー数の変化に対して堅牢であり、推論時において単一の視点のみが利用可能な場合でも、優れた性能を発揮する。標準ベンチマーク上での3次元ポーズ再構成精度の定量評価により、従来の最先端手法と比較して顕著な向上が示された。また、新規に構築した評価フレームワーク上で複数人物のアーティキュレート3次元ポーズ追跡を評価した結果、強力なベースラインと比較してTesseTrackの優位性が確認された。