
要約
単眼動画から正確な3次元人間の姿勢とメッシュを回復するための束調整に基づくアルゴリズムを提案します。従来のアルゴリズムが単一フレーム上で動作するのに対し、私たちは人物を全体的なシーケンスで再構築することで、追加の制約条件が曖昧さを解消できることを示します。これは、動画ではしばしば人物の複数の視点が得られますが、全体的な体形は変化せず、3次元位置はゆっくりと変化することによるものです。私たちの方法は、Human 3.6Mなどの標準的なモーションキャプチャベースのデータセットだけでなく、Kineticsのような困難な実世界データセットでも改善しています。このアルゴリズムに基づいて、Kineticsから取得したYouTube動画300万フレーム以上から自動生成された3次元姿勢とメッシュを持つ新しいデータセットを提示します。このデータ上で単一フレーム3次元姿勢推定器を再学習することで、3DPWおよびHumanEVAデータセットでの評価により、実世界データとモーションキャプチャデータ双方での精度向上が確認されました。