
要約
本論文では、単一画像からの3次元人間姿勢推定の問題を取り扱っています。標準的な2段階パイプラインに従い、まず$N$個の体節点の2次元位置を検出し、その後これらの観測値を使用して3次元姿勢を推論します。最初のステップでは、最近のCNNベースの検出器を使用しています。2番目のステップでは、既存の大多数の手法が2$N$-to-3$N$回帰(Cartesian joint coordinates)を行いますが、我々はより正確な姿勢推定を得るために、2次元と3次元の人間姿勢をともに$N\times N$距離行列で表現し、問題を2次元から3次元への距離行列回帰として定式化することを示しています。このような回帰器を学習するために、構造上予測行列の正値性と対称性を強制するシンプルなニューラルネットワークアーキテクチャを利用しています。この手法はまた、欠損観測値を自然に処理でき、非観測節点の位置を仮説立てることも可能という利点があります。HumanevaおよびHuman3.6Mデータセットにおける定量的評価結果は、最先端手法に対する一貫した性能向上を示しており、Human3.6Mで学習した回帰器を使用してLSPデータセットの野生環境画像での定性的評価も非常に有望な一般化結果を明らかにしています。