
要約
テキスト記述から多様な3D人体運動を生成する問題に取り組む。この困難なタスクは、両モダリティ(テキストと運動)を統合的にモデル化する必要がある。すなわち、テキストから人間中心の有用な情報を理解・抽出し、その後、現実的で妥当な人体ポーズの時系列を生成する必要がある。従来の研究の多くは、テキスト記述から単一で決定論的な運動を生成することに焦点を当てていたが、本研究では複数の多様な人体運動を生成可能な変分アプローチを提案する。我々は、人体運動データを用いた変分自己符号化器(VAE)学習と、VAEの潜在空間と互換性を持つ分布パラメータを出力するテキストエンコーダーを組み合わせた、テキスト条件付き生成モデルTEMOSを提案する。TEMOSフレームワークは、従来の研究で用いられるスケルトンベースのアニメーションに加え、より表現力豊かなSMPLボディモーションの生成も可能であることを示す。KIT Motion-Languageベンチマーク上で本手法を評価した結果、比較的単純な構成であるにもかかわらず、最先端手法に対して顕著な性能向上を達成した。コードおよびモデルは、当該ウェブページにて公開されている。