3ヶ月前

カメラ座標系における3D人体ポーズ推定のためのコンセンサスベース最適化

Diogo C Luvizon, Hedi Tabia, David Picard
カメラ座標系における3D人体ポーズ推定のためのコンセンサスベース最適化
要約

3次元人体ポーズ推定は、通常、根部の体節(ルート関節)を基準とした3次元ポーズの推定というタスクとして捉えられている。一方、本研究ではカメラ座標系における3次元人体ポーズ推定手法を提案する。この手法により、2次元アノテーションデータと3次元ポーズの有効な統合が可能となり、複数視点への直感的な拡張も容易になる。この目的のため、問題を視錐台空間(view frustum space)におけるポーズ推定として定式化し、絶対深度の予測と関節間の相対深度推定を分離する。最終的な3次元推定値は、逆カメラ投影(inverse camera projection)によってカメラ座標系で得られる。さらに、校正されていない画像からの複数視点推定に対して、一貫性に基づく最適化アルゴリズムを提示する。このアルゴリズムは単一の単眼学習プロセスを必要とする。本手法は訓練時のカメラ内部パラメータに間接的に依存するものの、異なる内部パラメータを持つカメラに対しても収束し、スケール因子を除いて一貫した推定結果をもたらす。本手法は代表的な3次元人体ポーズデータセットにおいて、既存の最先端技術を上回り、最も一般的なベンチマークにおいて予測誤差を32%削減した。また、絶対ポーズ位置誤差(absolute pose position error)についても評価を行い、単眼推定では平均80 mm、複数視点推定では平均51 mmの精度を達成した。