18日前

トータルキャプチャ:ビデオとインエールセンサを融合した3次元人体ポーズ推定

{and John Collomosse, Matthew Trumble, Charles Malleson, Adrian Hilton, Andrew Gilbert}
トータルキャプチャ:ビデオとインエールセンサを融合した3次元人体ポーズ推定
要約

本研究では、複数視点映像(MVV)と慣性測定装置(IMU)センサデータを融合するアルゴリズムを提示し、3次元人体ポーズを高精度で推定することを目的としている。本手法では、MVVフレームから導出された体積型確率的視認可能ボリューム(PVH)データを用いて、3次元畳み込みニューラルネットワーク(3D CNN)によりポーズ埋め込みを学習する。このモデルを、MVVから得られるポーズ埋め込みとIMUデータの前向き運動学的解法(forward kinematic solve)を統合する二重ストリームネットワークの枠組みに組み込む。両ストリームの融合前に、それぞれに時系列モデル(LSTM)を導入することで、時間的相関性を捉える。この二つの補完的データソースを統合して行うハイブリッドポーズ推定により、各センサモダリティに内在する曖昧性が解消され、従来手法に比べて精度が向上することが示された。本研究のさらなる貢献として、商用モーションキャプチャシステムから導出した骨格関節の真値を含む新しいハイブリッドMVVデータセット「TotalCapture」を構築した。このデータセットは、http://cvssp.org/data/totalcapture/ にて公開されている。

トータルキャプチャ:ビデオとインエールセンサを融合した3次元人体ポーズ推定 | 最新論文 | HyperAI超神経