
要約
単眼画像シーケンスから3次元人間の関節姿勢を復元することは、多様な外観、視点、遮蔽、および単眼画像から3次元姿勢が本質的に曖昧であるため非常に困難です。したがって、正確な3次元姿勢シーケンス予測のために、身体の関節間の豊富な空間的および時間的な長距離依存関係を活用することが重要です。既存の手法は通常、構造を捉えるためにいくつかの巧妙に設計された事前項や人間の身体運動制約を手動で設定しますが、これらはしばしばすべての内在的な構造を活用するのに十分ではなく、すべての状況に対して拡張性がないことが問題となっています。これに対し、本論文ではマルチステージ逐次改良を使用して、画像依存の構造制約とシーケンス依存の時間的コンテキストを自動的に学習する再帰型3次元姿勢シーケンスマシン(RPSM)を提案します。各段階において、我々のRPSMは以下の3つのモジュールで構成されています:(i) 2次元姿勢モジュール(画像依存の姿勢表現を抽出)、(ii) 3次元姿勢再帰モジュール(3次元姿勢を回帰)、(iii) 特徴適応モジュール(モジュール(i)と(ii)の橋渡しを行い、2次元から3次元領域への表現変換を可能にする)。これらの3つのモジュールは順次予測フレームワークに組み込まれ、複数段階での再帰処理によって予測された姿勢を洗練します。Human3.6MデータセットとHumanEva-Iデータセットにおける広範な評価により、我々のRPSMが3次元姿勢推定において最新手法全てを上回ることが示されました。