2ヶ月前

V2V-PoseNet: 単一の深度マップからの正確な3次元手と人間の姿勢推定のためのボクセルからボクセルへの予測ネットワーク

Gyeongsik Moon; Ju Yong Chang; Kyoung Mu Lee
V2V-PoseNet: 単一の深度マップからの正確な3次元手と人間の姿勢推定のためのボクセルからボクセルへの予測ネットワーク
要約

単一の深度マップから3次元手や人間の姿勢を推定する既存の深層学習ベースの手法の多くは、2次元深度マップを取り扱い、2次元畳み込みニューラルネットワーク(CNN)を用いて手や人間の関節などのキーポイントの3次元座標を直接回帰する共通のフレームワークに基づいています。このアプローチの最初の弱点は、2次元深度マップに存在する透視歪みです。深度マップは本質的に3次元データですが、多くの従来の手法では、3次元空間から2次元空間への投影によって実際の物体形状が歪む可能性がある2次元画像として扱われています。これにより、ネットワークは透視歪みに影響されない推定を行うことが求められます。従来アプローチの第二の弱点は、2次元画像から3次元座標を直接回帰することは非常に非線形的な写像であり、学習手続きにおいて困難を引き起こすことです。これらの弱点を克服するために、我々は単一の深度マップから3次元手や人間の姿勢を推定する問題を、3次元ボクセル化グリッドを使用し各キーポイントに対するボクセルごとの尤度を推定するボクセル対ボクセル予測に置き換えました。我々はモデルをリアルタイムで動作しつつ正確な推定を提供する3次元CNNとして設計しました。我々のシステムは公開されているほぼすべての3次元手と人間姿勢推定データセットで従来手法よりも優れた性能を示し、HANDS 2017フレームベース3次元手姿勢推定チャレンジで1位となりました。コードはhttps://github.com/mks0601/V2V-PoseNet_RELEASE で利用可能です。