17日前
Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation
Ziwen Li, Bo Xu, Han Huang, Cheng Lu, Yandong Guo

要約
複数の動画ベースの3Dポーズおよび形状推定アルゴリズムが、単一画像ベース手法における時間的不整合性を解決するために提案されてきた。しかし、安定的かつ高精度な再構成を実現することは依然として困難である。本論文では、RGB動画から3D人体ポーズおよびメッシュを生成するための新規フレームワークである「Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation(DTS-VIBE)」を提案する。本手法は、RGB画像とオプティカルフローを融合することで、より信頼性の高い推定を実現する多モーダル問題としてタスクを再定式化している。両モダリティ(RGB画像およびオプティカルフロー)を効果的に活用するため、Transformerに基づく二重ストリーム時系列ネットワークを訓練し、SMPLパラメータを予測する。補助的なモダリティであるオプティカルフローは、連続する2フレーム間の運動情報を利用することで、時間的整合性の維持に寄与する。提案手法は、Human3.6および3DPWデータセットにおいて広範にわたる評価が行われた。実験結果から、他の最先端手法と比較して顕著な性能向上が確認された。