
要約
ダンスは重要な人間の芸術形式であるが、新たなダンスを創作することは困難で時間のかかる作業である。本研究では、入力された音楽に忠実でありながら現実的で物理的に妥当なダンスを生成できる、編集可能なダンス生成のための最先端手法「Editable Dance GEneration(EDGE)」を提案する。EDGEは、強力な音楽特徴抽出器であるJukeboxと組み合わせた、Transformerベースの拡散モデルを採用しており、関節単位での条件付けや中間フレームの補間といった、ダンスに特有の強力な編集機能を備えている。さらに、物理的妥当性を評価するための新しい指標を導入し、本手法が生成するダンスの品質を(1)物理的妥当性、ビート同期性、多様性に関する複数の定量的評価指標を用いて検証するとともに、特に(2)大規模なユーザー実験を通じて、従来の最先端手法と比べて顕著な性能向上を示した。本モデルの定性的な生成サンプルは、当該ウェブサイトで確認できる。