
要約
動作中の人物の画像から、私たちはその人物の直近の過去と未来の3次元運動を容易に推測することができます。これは、動きを続ける人間の視覚的な連続画像を観察することで獲得した3次元の人間動態に関する心的モデルを持っているためです。本稿では、単純ながら効果的な時間的符号化を使用して、ビデオから3次元人間動態の表現を学習するフレームワークを提案します。テスト時には、ビデオから学習された時間的表現が滑らかな3次元メッシュ予測を生成します。単一の画像からも、私たちのモデルは現在の3次元メッシュだけでなく、その過去と未来の3次元運動も復元することができます。当手法は、2次元姿勢アノテーション付きビデオから半教師あり学習で学べるように設計されています。アノテーションデータは常に限られていますが、インターネット上には毎日何百万ものビデオがアップロードされています。本研究では、市販の2次元姿勢検出器から得られる疑似真値2次元姿勢を使用して、ラベルなしビデオでのモデル訓練により、この大規模な未ラベルデータ源を活用しています。実験結果は、疑似真値2次元姿勢付きビデオを追加することで3次元予測性能が単調に向上することを示しています。当モデル「Human Mesh and Motion Recovery (HMMR)」について評価を行い、「3D Poses in the Wild」という最近の難易度が高いデータセット上で最適な性能を得ることに成功しました。これは微調整を行わずに達成されました。プロジェクトウェブサイト(https://akanazawa.github.io/human_dynamics/)では、ビデオやコード、データなどをご覧いただけます。