FineMoGen:細粒度時空間運動生成および編集

テキスト駆動型モーション生成は、拡散モデルの登場により著しい進展を遂げている。しかし、既存の手法は、詳細かつ正確な時空間的動作を描写する細粒度な記述に対応した複雑なモーションシーケンスの生成に依然として困難を抱えており、その細かな制御性の欠如がモーション生成技術の一般利用を制限している。こうした課題に対処するため、本研究では、ユーザーの指示に応じて時空間的構成を反映した細粒度なモーションを合成可能な、拡散モデルに基づくモーション生成・編集フレームワーク「FineMoGen」を提案する。具体的には、本手法は新たなTransformerアーキテクチャ「時空間混合注意(Spatio-Temporal Mixture Attention, SAMI)」を用いて拡散モデルを拡張している。SAMIは、グローバルな注意テンプレートの生成を以下の2つの観点から最適化する:1)時空間的構成の制約を明示的にモデル化すること;2)スパースに活性化されるエキスパート混合(mixture-of-experts)を活用し、細粒度な特徴を適応的に抽出すること。この新しい細粒度モーション生成タスクに関する大規模な研究を促進するために、2,968本の動画と102,336件の細粒度時空間記述を含む「HuMMan-MoGen」データセットを提供する。広範な実験により、FineMoGenが最先端手法と比較して優れたモーション生成品質を示すことが確認された。特に、現代の大規模言語モデル(LLM)を活用することで、FineMoGenは細粒度の指示に基づいたゼロショットモーション編集を実現可能であり、モーションシーケンスを忠実に操作することが可能である。プロジェクトページ:https://mingyuan-zhang.github.io/projects/FineMoGen.html