17日前

DeepFuse:マルチビュー画像からのリアルタイム3D人体ポーズ推定を目的としたIMUに配慮したネットワーク

Fuyang Huang, Ailing Zeng, Minhao Liu, Qiuxia Lai, Qiang Xu
DeepFuse:マルチビュー画像からのリアルタイム3D人体ポーズ推定を目的としたIMUに配慮したネットワーク
要約

本稿では、体に装着されたインエール計測装置(IMU)データとマルチビュー画像を深く融合することにより、3次元空間における人体ポーズ推定を実現する2段階型完全3次元ネットワーク、すなわち\textbf{DeepFuse}を提案する。第1段階は純粋な視覚推定を目的として設計されており、マルチビュー入力のデータの本質的な特徴を保持するため、視覚段階では多チャンネルボリュームをデータ表現として用い、活性化関数に3次元ソフトアームアクス(3D soft-argmax)を採用している。第2段階はIMUによる精度向上段階であり、データレベルでIMUデータと視覚データを早期に融合するための「IMU-ボーン層(IMU-bone layer)」を導入している。事前に既知のスケルトンモデルを必要とせず、TotalCaptureデータセットにおいて平均関節誤差28.9mm、Human3.6Mデータセット(プロトコル1)において13.4mmを達成し、従来の最先端(SOTA)手法を大きく上回る結果を得た。最後に、本研究では完全3次元ネットワークが3次元ポーズ推定において有効であることを実験的に検証し、今後の研究に役立つ知見を提供する。

DeepFuse:マルチビュー画像からのリアルタイム3D人体ポーズ推定を目的としたIMUに配慮したネットワーク | 最新論文 | HyperAI超神経