
要約
時間的な連続性を持つ3次元人体ポーズおよび形状推定は、人間の行動を理解する上で極めて重要である。近年、単一画像や動画に基づく人体ポーズ推定において著しい進展が見られつつあるが、リアルタイム出力および時間的整合性を要求するライブストリーム動画における人体運動推定は、依然としてほとんど研究されていない分野である。本研究では、ライブストリーム動画におけるポーズ推定の精度および時間的整合性を向上させるために、時間的埋め込み型3次元人体ポーズ・形状推定手法(TePose)を提案する。TePoseは、過去の推定結果をブリッジとして用い、現在のフレームにおける推定を改善するための誤差フィードバックを実現するとともに、履歴のデータフレームと推定結果の対応関係を学習する。また、3次元ラベルが付与されていないデータセットを用いて敵対的学習を行うための運動ディスクリミネータとして、マルチスケール時空間グラフ畳み込みネットワークを提案する。さらに、ライブストリーム特有のエンドツーエンドのデータ処理要件を満たすための逐次的データロード戦略を設計した。広範な実験を通じて、各提案モジュールの重要性を検証した結果、TePoseは最先端の性能を示し、広く用いられている人体ポーズベンチマークにおいて有効性が確認された。