11日前

DiverseMotion:離散拡散を用いた多様な人間の運動生成へ

Yunhong Lou, Linchao Zhu, Yaxiong Wang, Xiaohan Wang, Yi Yang
DiverseMotion:離散拡散を用いた多様な人間の運動生成へ
要約

本稿では、テキスト記述を条件とした高品質な人間の動きを生成しつつ、動きの多様性を維持する新たなアプローチ「DiverseMotion」を提案する。近年、テキストベースの人体運動生成において著しい進展が見られたが、既存の手法はしばしば訓練データの動きに過度に適合することに注力し、行動の多様性が犠牲になる傾向にある。その結果、動きの質と多様性のバランスを適切に取ることは、未解決の課題のまま残っている。この問題は、以下の2つの要因によってさらに悪化している:1)既存のベンチマークデータセットにおける動き-キャプションペアの多様性の不足、および2)テキストプロンプトに対する単一的かつ偏った意味理解、特に動詞成分にのみ注目し、他の語が示す微細なニュアンスを無視する点である。第一の課題に対応するため、既存の高品質にアノテーションされたデータセットが制限する行動範囲を拡張するため、大規模な「Wild Motion-Captionデータセット(WMC)」を構築した。これにより、より広範な行動範囲をカバーすることで、多様な動きの学習を可能にする。具体的には、事前学習済みの視覚言語モデルを基にした動き用BLIPモデルを訓練し、収集した動きシーケンスに対して自動的に多様な動きキャプションを生成した。その結果、8,888本の動きと14.1万件のテキストを含むデータセットを構築した。テキスト命令の包括的な理解を実現するため、細粒度な意味情報を捉えるための「階層的意味集約(Hierarchical Semantic Aggregation; HSA)モジュール」を提案した。最終的に、上記の2つの設計を統合した効果的な「運動離散拡散(Motion Discrete Diffusion; MDD)フレームワーク」に組み込み、動きの質と多様性のバランスを実現した。HumanML3DおよびKIT-MLにおける広範な実験の結果、DiverseMotionは最先端の動きの質を達成するとともに、競争力のある動きの多様性を示した。本研究で使用したデータセット、コード、および事前学習済みモデルは、すべての結果を再現可能となるように公開する予定である。

DiverseMotion:離散拡散を用いた多様な人間の運動生成へ | 最新論文 | HyperAI超神経