11日前
野生における3次元人体ポーズ予測のための汎用的な拡散ベースアプローチ
Saeed Saadatnejad, Ali Rasekh, Mohammadreza Mofayezi, Yasamin Medghalchi, Sara Rajabzadeh, Taylor Mordan, Alexandre Alahi

要約
現実世界のシナリオにおける3D人体ポーズの予測、すなわち人体ポーズ予測は、不正確な3Dポーズ推定や遮蔽(オクルージョン)に起因するノイズの多い入力に常に直面する。こうした課題に対処するため、本研究ではノイズのある観測値をもとにポーズを予測可能な拡散モデルに基づくアプローチを提案する。我々は予測タスクをノイズ除去問題として定式化し、観測データと予測結果を、欠損要素(観測時または予測期間内に存在する)を含む単一の時系列として捉える。すべての欠損要素はノイズとして扱われ、条件付き拡散モデルを用いて除去される。長期予測の精度を向上させるために、時間的カスケード構造を採用した拡散モデルを導入する。提案手法の有効性を、公開されている4つのデータセット(Human3.6M、HumanEva-I、AMASS、3DPW)上で実証し、最先端の手法を上回る性能を示した。さらに、本フレームワークが汎用性に富んでおり、任意の3Dポーズ予測モデルに対して、入力の補修(前処理)および出力の精緻化(後処理)として適用可能であることも示した。コードはオンラインで公開されている:\url{https://github.com/vita-epfl/DePOSit}。