
要約
動きの表現を考える際、振付家は自身の専門とするダンスジャンルに習熟しているため、自然とそのジャンル特有のパターンを繰り返し用いる傾向がある。では、人工知能(AI)を活用して、振付家が異なるダンスジャンルを融合する際のインスピレーションとして、さまざまなダンスの提案を行い、自身の振付スタイルに合ったものを提示できるようにすることができるだろうか?近年、ダンス生成のための自己回帰型ネットワークのタスク特化型バリエーションが多数開発されている。しかし、現存するすべてのアルゴリズムには深刻な制約が存在する。すなわち、初期のポーズシーケンスが与えられた場合、同じパターンの繰り返ししか出力できず、それが結果として質の低いダンス生成につながる可能性がある。この問題を緩和するために、本研究では、単一のモデルで複数のダンスジャンルを統合し、音楽条件付きの多様なダンス生成を実現する新しいスケーラブルなアプローチ「MNET」を提案する。本手法では、Transformerアーキテクチャを活用した条件付き生成的対抗ネットワーク(cGAN)を訓練することで、ダンスジャンルに敏感な潜在表現(latent representation)を学習する。さらに、AIST++データセットを用いた広範な実験とユーザー調査を実施した。既存の最先端手法と比較して、本手法は複数のダンスジャンルに応じた自然で多様な出力を生成し、定性的・定量的に優れたダンスシーケンスを生成することを確認した。