1ヶ月前
スパースさと深さの融合:単眼動画からの3D人間ポーズ推定
Xiaowei Zhou; Menglong Zhu; Spyridon Leonardos; Kosta Derpanis; Kostas Daniilidis

要約
本論文では、単眼画像シーケンスからの3次元全身人間姿勢推定の課題に取り組んでいます。ここでは、以下の2つのケースが検討されています:(i) 人間の関節の画像位置が提供されている場合と (ii) 関節の画像位置が未知である場合です。前者の場合には、疎性駆動3次元幾何学的先験情報と時間的ななめらかさを統合する新しい手法が導入されています。後者の場合には、前者の手法を拡張し、関節の画像位置を潜在変数として扱っています。深層完全畳み込みネットワーク(Deep Fully Convolutional Network)を用いて2次元関節位置の不確実性マップを予測するように訓練しています。3次元姿勢推定は、全シーケンスに対して期待値最大化アルゴリズム(Expectation-Maximization algorithm)を使用して実現され、推論時に2次元関節位置の不確実性が簡便に周辺化できることが示されています。Human3.6Mデータセットでの経験的評価により、提案手法が最先端の基準モデルよりも高い3次元姿勢推定精度を達成していることが確認されました。さらに、提案手法は困難なPennActionデータセットにおいて公開されている2次元姿勢推定基準モデルを上回る性能を示しました。