7ヶ月前

概要

深層畳み込みネットワークの成功に続き、3次元人間姿勢推定の最先端手法は、生の画像ピクセルから3次元関節位置を予測する深層エンドツーエンドシステムに焦点を当てています。それらの優れた性能にもかかわらず、残存する誤差が2次元姿勢（視覚的）理解の制限から来ているのか、あるいは2次元姿勢を3次元位置にマッピングする際の失敗から来ているのかを理解することはしばしば困難です。これらの誤差源を理解することを目指し、私たちは2次元関節位置から3次元位置を予測するシステムの構築に着手しました。驚くことに、現在の技術では、「リフティング」真実値2次元関節位置を3次元空間に移すタスクは非常に低い誤差率で解決できることがわかりました：比較的単純な深層フィードフォワードネットワークが、最大公的に利用可能な3次元姿勢推定ベンチマークであるHuman3.6Mにおいて、最良報告結果よりも約30％上回る性能を示しました。さらに、当社のシステムを市販の最先端2次元検出器（つまり、画像を使用して入力）の出力で学習させると、このタスクのために特にエンドツーエンドで学習された一連のシステムを超える最先端結果を得ることができます。私たちの結果は、現代的な深層3次元姿勢推定システムの大半の誤差が視覚解析から来ていることを示唆しており、3次元人間姿勢推定における最先端技術をさらに進歩させる方向性を提案しています。

ソースPDF コードを表示