6ヶ月前

概要

我々は、3Dダンスモーションと音楽のマルチモーダルデータセット「AIST++」および、音楽を条件とした3Dダンスモーション生成を目的とした「FACT（Full-Attention Cross-modal Transformer）」ネットワークを提案する。提案するAIST++データセットは、1408のシーケンスにわたり10種類のダンスジャンルをカバーし、カメラポーズが既知のマルチビュー動画を含む5.2時間分の3Dダンスモーションを収録しており、現時点で知られている中で最大規模の同種データセットである。本研究では、音楽条件付き3Dモーション生成というタスクにおいて、トランスフォーマーを含む従来のシーケンスモデルをこのデータセットに直接適用しても、入力音楽と良好に整合した実用的な3Dモーションが得られないことを実証する。この課題を克服するため、アーキテクチャ設計および教師信号の観点から重要な変更を導入した。FACTモデルは、未来の $N$ フレーム分のモーションを予測する目的で学習される、フルアテンションを備えた深層クロスモーダルトランスフォーマーブロックを採用している。実験的に、これらの設計変更が、入力音楽に適切に調和した長時間の現実的なダンスモーションを生成する上で鍵となる要因であることを示した。さらに、ユーザー調査を含む広範な実験を通じて、本手法が最近の最先端手法を、定性的・定量的に上回ることを確認した。

ソースPDF