4ヶ月前

深層ネットワークを用いた最大余裕構造学習による3次元人間姿勢推定

Sijin Li; Weichen Zhang; Antoni B. Chan
深層ネットワークを用いた最大余裕構造学習による3次元人間姿勢推定
要約

本論文では、単眼画像から3次元人間の姿勢を推定するための深層ニューラルネットワークを使用した構造出力学習に焦点を当てています。我々のネットワークは画像と3次元姿勢を入力とし、画像と姿勢が一致する場合に高い値を、そうでない場合には低い値を出力するスコア値を生成します。ネットワーク構造は、画像特徴抽出用の畳み込みニューラルネットワーク(CNN)に続き、画像特徴と姿勢を共同埋め込みに変換する2つのサブネットワークで構成されています。スコア関数は、画像埋め込みと姿勢埋め込みの内積となります。画像-姿勢の共同埋め込みとスコア関数は、最大マージンコスト関数を使用して合同で訓練されます。我々が提案するフレームワークは、共同特徴空間が深層ニューラルネットワークを使用して判別的に学習される特別な形態の構造サポートベクターマシン(SVM)として解釈することができます。我々はHuman3.6Mデータセット上で提案したフレームワークを検証し、他の最近の手法と比較して最先端の結果を得ました。最後に、画像-姿勢の共同埋め込み空間の可視化を行い、ネットワークが身体方向と姿勢設定の高レベルな埋め込みを学習していることを示しています。