2ヶ月前
時間認識に基づくビデオによる人間の姿勢と形状の回復のための洗練
Ming Chen; Yan Zhou; Weihua Jian; Pengfei Wan; Zhongyuan Wang

要約
近年、単眼RGB画像から人間の姿勢と形状を復元する技術において著しい進歩が見られますが、ビデオから高精度かつ時間的な一貫性を持つ3次元人間の動きを得ることは依然として困難です。既存のビデオベースの手法は、全体的な画像特徴から人間の動きを再構築する傾向にありますが、これらの特徴は詳細な表現能力に欠けており、再構築精度を制限しています。本論文では、Temporal-Aware Refining Network(TAR)を提案し、時間的に意識した全体的な画像特徴と局所的な画像特徴を同時に探索して正確な姿勢と形状の復元を行うことを目指します。まず、静的な特徴シーケンスから時間的な全体特徴を抽出するためにグローバルトランスフォーマーエンコーダーを導入します。次に、双方向ConvGRUネットワークが高解像度の特徴マップシーケンスを受け取り、高解像度を維持しつつ人間体の局所運動を捉える時間的な局所特徴マップを出力します。最後に、再帰的精緻化モジュールが全体的および局所的な時間情報を活用して推定されたSMPLパラメータを反復的に更新し、正確で滑らかな結果を得ることを目指します。広範な実験により、我々のTARが3DPW, MPI-INF-3DHP, Human3.6Mなどの一般的なベンチマークにおいて以前の最先端手法よりもより正確な結果を得ていることが示されています。