
要約
2次元ヒューマンポーズ推定においては、畳み込みニューラルネットワーク(CNN)の利用により成功が見られていますが、3次元ヒューマンポーズ推定については十分に研究されていません。本論文では、CNNを用いたエンドツーエンド学習によって3次元ヒューマンポーズ推定の課題に取り組んでいます。各関節間の相対的な3次元位置情報をCNNを通じて学習します。提案手法は、以下の2つの新規アイデアによりCNNの性能を向上させています。第一に、画像から3次元ポーズを推定するために2次元ポーズ情報を取り入れることで、画像特徴量と2次元ポーズ推定結果を結合しています。第二に、単一の根関節だけでなく、複数の関節に対する相対位置情報の組み合わせを使用することでより正確な3次元ポーズを得られることを見出しました。実験結果は、提案手法がHuman 3.6Mデータセット上で最先端手法と同等の性能を達成することを示しています。