15日前
タスク汎用的な階層型ヒューマンモーション事前分布の構築に向けたVAEの活用
Jiaman Li, Ruben Villegas, Duygu Ceylan, Jimei Yang, Zhengfei Kuang, Hao Li, Yajie Zhao

要約
人間の運動を記述する深層生成モデルは、ビデオベースの人体ポーズ推定におけるロバスト性の向上、遮蔽状況下におけるモーションキャプチャシステムの完全な身体運動の予測、および自然な運動を補助するキーフレームアニメーションの支援など、幅広い基礎的なコンピュータビジョンおよびグラフィックスタスクに寄与する。本論文では、特定のタスクに依存せずに複雑な人間運動を学習するための手法を提示する。そのために、粗いモデリングと細粒度モデリングを促進するため、グローバルとローカルの潜在空間を統合したアプローチを採用している。具体的には、2段階の階層的潜在空間を有する階層的運動変分自己符号化器(Hierarchical Motion Variational Autoencoder, HM-VAE)を提案する。このモデルでは、グローバル潜在空間が全体的な身体運動を捉え、ローカル潜在空間が各身体部位の微細なポーズを表現できるように設計されている。我々は、HM-VAEがビデオベースの人体ポーズ推定、部分観測からの運動補完、および疎なキーフレームからの運動合成といった多様なタスクにおいて有効であることを実証した。なお、本モデルはこれらのタスクに特化して訓練されていないにもかかわらず、タスク固有の代替手法よりも優れた性能を発揮している。本研究で提示する汎用的な人間運動事前モデルは、破損した人体アニメーションを修正し、不完全な観測から完全な運動を生成することが可能である。