単眼画像とスパースIMU信号の融合によるリアルタイム人間の動き捕捉

モーションキャプチャ(mocap)の分野では、従来、RGB画像またはインエーシャル信号のいずれかを用いてきたが、両者を統合するアプローチは、新しいかつ興味深いトピックである。本研究では、これらのモダリティを組み合わせることで、それぞれの限界を補完できると確信している。具体的には、視覚ベースのmocapにおけるオクルージョンや極端な照明・テクスチャ、視界外の状況、およびインエーシャルベースのmocapにおけるグローバルドリフトといった課題を効果的に解決できると考えている。この目的のため、本研究では単眼画像とスパースIMU(慣性計測装置)をリアルタイムで融合する手法を提案する。本手法は、モーションキャプチャにおける異なる目的に応じてIMU信号を最適に活用できる「二重座標戦略」を採用している。具体的には、一方のブランチではIMU信号をカメラ座標系に変換し、画像情報と統合する一方、もう一方のブランチでは、ボディのルート座標系におけるIMU信号から姿勢推定を学習することで、より正確なボディポーズ推定を実現している。さらに、極端な入力条件下における各ブランチの欠点を補うために、両ブランチに隠れ状態フィードバック機構を導入している。これにより、状況に応じて2種類の信号を切り替えたり、異なる組み合わせで統合したりすることで、高いロバスト性を実現したmocapが可能となる。二つのブランチは互いに補完し合い、異なる条件下でもより優れたmocap結果を達成できる。定量的および定性的な実験結果から、本手法が、グローバルオリエンテーションとローカルポーズ推定の両面において、最先端の視覚ベース、IMUベース、および統合型手法を大きく上回ることを示している。本研究のコードは、研究目的で公開されており、https://shaohua-pan.github.io/robustcap-page/ から入手可能である。