2ヶ月前

ノイズ2ミュージック：テキスト条件付き音楽生成の拡散モデル

Huang, Qingqing ; Park, Daniel S. ; Wang, Tao ; Denk, Timo I. ; Ly, Andy ; Chen, Nanxin ; Zhang, Zhengdong ; Zhang, Zhishuai ; Yu, Jiahui ; Frank, Christian ; Engel, Jesse ; Le, Quoc V. ; Chan, William ; Chen, Zhifeng ; Han, Wei

論文の詳細を見る

要約

私たちはNoise2Musicを紹介します。このシステムでは、テキストプロンプトから高品質の30秒間の音楽クリップを生成する一連の拡散モデルが訓練されています。拡散モデルは2種類あり、テキストに条件付けられた中間表現を生成するジェネレーターモデルと、中間表現（および場合によってはテキスト）に条件付けられた高忠実度のオーディオを生成するカスケーダーモデルがあります。これらのモデルは順次訓練され、使用されて高忠実度の音楽を生成します。中間表現には2つのオプションが探索されました。1つ目はスペクトログラムを使用する方法で、2つ目は低忠実度のオーディオを使用する方法です。生成されたオーディオは、ジャンル、テンポ、楽器、ムード、時代などのテキストプロンプトの主要要素を忠実に反映不仅能，还能超越这些要素，捕捉到提示的细粒度语义（fine-grained semantics）。预训练的大规模语言模型在这一过程中扮演了关键角色——它们用于为训练集的音频生成配对文本，并提取由扩散模型摄取的文本提示的嵌入。生成例: https://google-research.github.io/noise2music【修正后的翻译】生成されたオーディオは、ジャンル、テンポ、楽器、ムード、時代などのテキストプロンプトの主要要素を忠実に反映不仅能，还能超越这些要素，捕捉到提示的细粒度语义（fine-grained semantics）。预训练的大规模语言模型在这一过程中扮演了关键角色——它们用于为训练集的音频生成配对文本，并提取由扩散模型摄取的文本提示的嵌入。【优化后的翻译】生成されたオーディオは、テキストプロンプトの主要な要素であるジャンル、テンポ、楽器、ムード、時代などを忠実に反映するとともに、それらを超えてプロンプトの細かい意味論(fine-grained semantics)も捉えることができます。事前学習された大規模言語モデルがこの過程で重要な役割を果たしており、訓練セットの音声に対してペアとなるテキストを生成し、拡散モデルが取り込むテキストプロンプトの埋め込みを抽出するために使用されています。生成例: https://google-research.github.io/noise2music