
要約
条件付きモーション生成はコンピュータビジョン分野で広く研究されてきたが、依然として二つの重要な課題が残っている。第一に、最近のマスク付き自己回帰手法は拡散モデルに基づくアプローチを上回る性能を示しているものの、既存のマスクモデルは与えられた条件に基づいて動的なフレームや身体部位を優先的に処理するメカニズムを欠いている。第二に、異なる条件モダリティ(例:テキスト、音楽など)に対応する既存手法は、複数モダリティを効果的に統合する能力に欠け、生成モーションの制御性と一貫性に制限がある。これらの課題に対処するため、本研究では「Motion Anything」と呼ばれるマルチモーダルモーション生成フレームワークを提案する。本フレームワークは、アテンションに基づくマスクモデリングを導入し、キーフレームや動作に対する細粒度な空間的・時間的制御を可能にする。また、テキストや音楽といったマルチモーダル条件を適応的に符号化することで、制御性を向上させる。さらに、2,153組のテキスト・音楽・ダンスデータを含む新しいモーションデータセット「Text-Music-Dance(TMD)」を構築した。これはAIST++の2倍の規模であり、コミュニティにおける重要な空白を埋めるものである。広範な実験の結果、Motion Anythingは複数のベンチマークにおいて最先端手法を上回り、HumanML3DではFID指標で15%の改善を達成するとともに、AIST++およびTMDにおいても一貫した性能向上が確認された。詳細はプロジェクトウェブサイト(https://steve-zeyu-zhang.github.io/MotionAnything)をご覧ください。