11日前
MotionDiffuse:拡散モデルを用いたテキスト駆動型人間の動き生成
Mingyuan Zhang, Zhongang Cai, Liang Pan, Fangzhou Hong, Xinying Guo, Lei Yang, Ziwei Liu

要約
人間の運動モデリングは、現代のグラフィックス応用において重要な役割を果たしており、通常は専門的なスキルを要する。一般ユーザーがこれらの技術にアクセスできるようにするため、近年の運動生成手法は自然言語を入力として、人間の運動を直接生成する方式が提案されている。しかし、さまざまなテキスト入力に対して多様かつ細分化された運動生成を達成することは依然として困難である。この課題に対処するために、本研究では、最初の拡散モデル(diffusion model)に基づくテキスト駆動型運動生成フレームワーク「MotionDiffuse」を提案する。この手法は、既存の方法と比較して、以下の望ましい特性を示す。1)確率的マッピング:決定論的な言語-運動マッピングではなく、ノイズ除去ステップを複数回繰り返すことで運動を生成する過程において、変動を導入することで、多様な出力を可能にする。2)現実的な合成:複雑なデータ分布を正確にモデル化し、鮮やかで自然な運動シーケンスを生成する能力に優れる。3)多レベルの操作性:身体部位ごとの細かい指示に応じた制御が可能であり、時間に依存する任意長のテキストプロンプトを用いた運動合成も実現する。実験の結果、MotionDiffuseはテキスト駆動型運動生成およびアクション条件付き運動生成の両面で、既存の最先端(SoTA)手法を明確な差で上回ることが示された。定性的な分析により、MotionDiffuseが包括的な運動生成において高い制御性を有していることも確認された。公式ページ:https://mingyuan-zhang.github.io/projects/MotionDiffuse.html