17日前

FusePose:パラメトリックな人体ポーズ推定を目的とした運動学空間におけるIMU-ビジョンセンサフュージョン

Yiming Bao, Xu Zhao, Dahong Qian
FusePose:パラメトリックな人体ポーズ推定を目的とした運動学空間におけるIMU-ビジョンセンサフュージョン
要約

3次元人体ポーズ推定の任務には、オクルージョンや自己オクルージョンによって性能が低下するといった困難な課題が存在する。近年、IMU(慣性計測装置)と視覚センサのデータ融合は、こうした課題の解決に有効であると注目されている。しかし、異種のデータであるIMUと視覚データの融合に関する従来の研究では、IMUの原始データや信頼性の高い高レベルな視覚特徴を十分に活用できていない。本研究では、パラメトリックな人体運動学モデルの下で、より効率的なセンサ融合を実現するため、\emph{FusePose}と名付けたフレームワークを提案する。具体的には、IMUまたは視覚データの異なる情報を統合し、3つの特徴的なセンサ融合アプローチ、すなわちNaiveFuse、KineFuse、AdaDeepFuseを導入している。NaiveFuseは、簡略化されたIMUデータとユークリッド空間における推定3次元ポーズを単純に融合する基本的手法である。一方、運動学空間では、校正・同期されたIMUの原始データと変換された3次元ポーズパラメータをKineFuseが統合可能である。さらに、AdaDeepFuseはこの運動学的融合プロセスを、適応的かつエンド・トゥ・エンドで学習可能な形に発展させた。消去実験を含む包括的な実験により、提案フレームワークの妥当性と優位性が実証された。ベースライン結果と比較して、3次元人体ポーズ推定の性能が向上した。Total Captureデータセットにおいて、KineFuseはIMUデータのみをテストに用いた従来の最先端手法を8.6%上回った。また、訓練・テストの両方にIMUデータを使用した最先端手法と比較して、AdaDeepFuseは8.5%の性能向上を達成した。さらに、Human3.6Mデータセットにおける実験を通じて、本フレームワークの汎化能力も検証された。