11日前
ReMoDiffuse:リトリーブ増強型モーションディフュージョンモデル
Mingyuan Zhang, Xinying Guo, Liang Pan, Zhongang Cai, Fangzhou Hong, Huirong Li, Lei Yang, Ziwei Liu

要約
3D人体運動生成はクリエイティブ産業において極めて重要である。近年の進展は、テキスト駆動型運動生成に向けたドメイン知識を組み込んだ生成モデルに依拠しており、一般的な運動の表現において顕著な進歩が達成されている。しかし、より多様な運動に対する性能は依然として満足のいくものではない。本研究では、再検索機構を統合した拡散モデルベースの運動生成フレームワーク「ReMoDiffuse」を提案する。ReMoDiffuseは、以下の3つの鍵となる設計により、テキスト駆動型運動生成の汎用性と多様性を向上させる。1)ハイブリッド再検索(Hybrid Retrieval):意味的・運動学的類似性の両面からデータベース内から適切な参照サンプルを検索する。2)意味制御型トランスフォーマー(Semantic-Modulated Transformer):取得した参照知識を選択的に吸収し、取得サンプルとターゲット運動シーケンスとの差異に適応する。3)条件混合(Condition Mixture):推論時に再検索データベースをより効果的に活用し、分類器フリー・ガイド付き生成におけるスケール感度の問題を克服する。広範な実験により、ReMoDiffuseがテキストと運動の整合性および運動品質の両面で優れたバランスを実現し、特に多様な運動生成において最先端手法を上回ることを示した。