6ヶ月前

概要

我々は、テキストと音楽の両モダリティを同時に組み込んだ3Dダンス動作の生成という新しいタスクを提案する。従来の研究では、音楽などの単一モダリティに基づいてダンス動作を生成するものが多かったが、本研究の目的は、テキストが提供する指示情報を用いて、より豊かで意味的なダンス動作を生成することにある。しかしながら、音楽とテキストの両方のモダリティを伴ったペア化された動きデータの不足により、両モダリティを統合したダンス生成の実現が困難である。この課題を緩和するため、2つのデータセットの動きを、量子化されたベクトルから構成される潜在空間に射影する3D人体運動用のVQ-VAEを活用することを提案する。これにより、分布の異なる2つのデータセットの動きトークンを効果的に混合し、学習に適した表現を獲得できる。さらに、音楽条件付きのダンス生成性能を損なうことなく、テキスト指示を動き生成アーキテクチャに統合するため、クロスモダリティ変換器（cross-modal transformer）を提案する。生成された動きの品質をより適切に評価するため、新たな評価指標として、動きの整合性を測る「動き予測距離（Motion Prediction Distance: MPD）」と、動きの停止率（フリーズ率）を評価する「フリーズスコア（Freezing Score: FS）」を導入する。広範な実験の結果、本手法はテキストと音楽の両条件に基づいて現実的で一貫性のあるダンス動作を生成できることを示した。また、単一モダリティ（音楽またはテキスト）の生成性能と比較しても、同等の性能を維持している。実装コードは以下のURLで公開されている：https://garfield-kh.github.io/TM2D/。

ソースPDF