Command Palette
Search for a command to run...
効率的なニューラル音楽生成
効率的なニューラル音楽生成
Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang
概要
最近の音楽生成における進歩は、最先端のMusicLMによって著しく推進されました。MusicLMは、意味論、粗音響、細音響モデリングの3つの階層構造を持つ言語モデル(LM)から構成されています。しかし、MusicLMを使用したサンプリングにはこれらのLMを順次処理する必要があり、微細な音響トークンを得るために計算コストが高く、リアルタイム生成には不適切です。MusicLMと同等の品質で効率的な音楽生成は依然として大きな課題となっています。本論文では、MeLoDy(M: music; L: language model; D: diffusion)と呼ばれる言語モデル誘導型拡散モデルを提案します。このモデルは最先端の品質の音楽オーディオを生成しながら、10秒や30秒の音楽サンプリングにおいてそれぞれ95.7%または99.6%のMusicLMの前向きパス数を削減します。MeLoDyはMusicLMから最高レベルのLMを継承し、意味論的トークンを効率的に波形にデコードするために新しい双方向パス拡散(DPD)モデルとオーディオVAE-GANを適用しています。DPDは各除ノイズステップでクロスアテンションを通じて意味論的情報を潜在変数のセグメントに効果的に組み込むことで、粗音響と細音響を同時にモデリングすることを目指しています。実験結果は、MeLoDyがサンプリング速度や無限に継続可能な生成という実用的な利点だけでなく、最先端の音楽性、オーディオ品質、およびテキスト相関性において優れていることを示唆しています。私たちが生成したサンプルは以下のURLで利用可能です: https://Efficient-MeLoDy.github.io/。