2ヶ月前

ムスタンゴ:制御可能なテキストから音楽の生成に向けて

Melechovsky, Jan ; Guo, Zixun ; Ghosal, Deepanway ; Majumder, Navonil ; Herremans, Dorien ; Poria, Soujanya
ムスタンゴ:制御可能なテキストから音楽の生成に向けて
要約

テキストから音楽を生成するモデルの品質は、最近のディフュージョンモデルの進歩により新たな高みに達しています。しかし、さまざまな音楽要素の制御可能性についてはほとんど研究がなされていません。本論文では、Mustango(マスタンゴ)という音楽領域知識に基づくテキストから音楽への変換システムを提案します。Mustangoは、一般的なテキストキャプションだけでなく、コード、ビート、テンポ、キーなどの具体的な指示を含むより豊かなキャプションを使用して生成された音楽を制御することを目指しています。Mustangoの中心にはMuNet(ミューネット)があり、これは音楽領域知識を反映したUNetガイダンスモジュールです。MuNetは逆ディフュージョンプロセス中にテキストプロンプトから予測した音楽特有の条件と一般テキスト埋め込みを組み合わせて、生成される音楽を導きます。オープンソースのテキストキャプション付き音楽データセットが限られている問題に対処するために、私たちは新しいデータ拡張手法を提案します。この手法は、調和的(ハーモニック)、リズミック(リズミック)、ダイナミック(ダイナミック)な側面を変更し、最先端の音楽情報検索技術を使用して音楽特徴を抽出し、既存のテキスト形式の説明に追加することを含んでいます。その結果得られたMusicBenchデータセットには52,000件以上のインスタンスが含まれおり、キャプションテキストには音楽理論に基づいた説明が含まれています。広範囲にわたる実験を通じて示したように、Mustangoによって生成される音楽の品質は最先端であり、MusicGenやAudioLDM2などの他のモデルよりも音楽特有のテキストプロンプトによる制御可能性が大幅に優れています。

ムスタンゴ:制御可能なテキストから音楽の生成に向けて | 最新論文 | HyperAI超神経