8ヶ月前

拡散モデル

音声および音声処理

アプローチ／フレームワーク

オーディオ

Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang

概要

最近の音楽生成における進歩は、最先端のMusicLMによって著しく推進されました。MusicLMは、意味論、粗音響、細音響モデリングの3つの階層構造を持つ言語モデル（LM）から構成されています。しかし、MusicLMを使用したサンプリングにはこれらのLMを順次処理する必要があり、微細な音響トークンを得るために計算コストが高く、リアルタイム生成には不適切です。MusicLMと同等の品質で効率的な音楽生成は依然として大きな課題となっています。本論文では、MeLoDy（M: music; L: language model; D: diffusion）と呼ばれる言語モデル誘導型拡散モデルを提案します。このモデルは最先端の品質の音楽オーディオを生成しながら、10秒や30秒の音楽サンプリングにおいてそれぞれ95.7%または99.6%のMusicLMの前向きパス数を削減します。MeLoDyはMusicLMから最高レベルのLMを継承し、意味論的トークンを効率的に波形にデコードするために新しい双方向パス拡散（DPD）モデルとオーディオVAE-GANを適用しています。DPDは各除ノイズステップでクロスアテンションを通じて意味論的情報を潜在変数のセグメントに効果的に組み込むことで、粗音響と細音響を同時にモデリングすることを目指しています。実験結果は、MeLoDyがサンプリング速度や無限に継続可能な生成という実用的な利点だけでなく、最先端の音楽性、オーディオ品質、およびテキスト相関性において優れていることを示唆しています。私たちが生成したサンプルは以下のURLで利用可能です: https://Efficient-MeLoDy.github.io/。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

拡散モデル

音声および音声処理

アプローチ／フレームワーク

オーディオ

Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang

概要

最近の音楽生成における進歩は、最先端のMusicLMによって著しく推進されました。MusicLMは、意味論、粗音響、細音響モデリングの3つの階層構造を持つ言語モデル（LM）から構成されています。しかし、MusicLMを使用したサンプリングにはこれらのLMを順次処理する必要があり、微細な音響トークンを得るために計算コストが高く、リアルタイム生成には不適切です。MusicLMと同等の品質で効率的な音楽生成は依然として大きな課題となっています。本論文では、MeLoDy（M: music; L: language model; D: diffusion）と呼ばれる言語モデル誘導型拡散モデルを提案します。このモデルは最先端の品質の音楽オーディオを生成しながら、10秒や30秒の音楽サンプリングにおいてそれぞれ95.7%または99.6%のMusicLMの前向きパス数を削減します。MeLoDyはMusicLMから最高レベルのLMを継承し、意味論的トークンを効率的に波形にデコードするために新しい双方向パス拡散（DPD）モデルとオーディオVAE-GANを適用しています。DPDは各除ノイズステップでクロスアテンションを通じて意味論的情報を潜在変数のセグメントに効果的に組み込むことで、粗音響と細音響を同時にモデリングすることを目指しています。実験結果は、MeLoDyがサンプリング速度や無限に継続可能な生成という実用的な利点だけでなく、最先端の音楽性、オーディオ品質、およびテキスト相関性において優れていることを示唆しています。私たちが生成したサンプルは以下のURLで利用可能です: https://Efficient-MeLoDy.github.io/。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています