
要約
人間の動きの本質的なニュアンスは、通常、身体の運動と手のジェスチャーの組み合わせとして表現されるが、従来の単眼モーションキャプチャ手法は、身体運動にのみ注目して手の部分を無視するものや、手の運動にのみ注目して身体の動きを考慮しないものが多く、両者の同時捉えに課題があった。本論文では、屋外環境下の単眼入力から3Dの手および身体運動を同時に推定可能なモーションキャプチャシステム「FrankMocap」を提案する。本手法は、従来の手法と比較してより高速(9.5 fps)かつより高い精度を実現し、ほぼリアルタイム(9.5 fps)で動作し、統一されたパラメトリックモデル構造として3D身体および手の運動キャプチャ結果を出力する。本手法は、困難な屋外環境下の単眼動画から、3D身体および手の運動を同時に捉えることを目的としている。FrankMocapの構築にあたっては、全身パラメトリックモデル(SMPL-X)の手部部分を活用し、最先端の単眼3D「手」モーションキャプチャ手法を構築した。得られた3D手の運動キャプチャ結果は、単眼身体運動キャプチャ出力と効率的に統合可能であり、統一されたパラメトリックモデル構造で全身運動の結果を生成する。公開ベンチマークにおいて、本手法の手運動キャプチャ性能が最先端レベルであることを実証し、ライブデモを含む多様な困難な現実世界シーンにおいて、高品質な全身運動キャプチャ結果の実現を示した。