12日前
潜在拡散を用いた長文音楽生成
Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

要約
音声に基づく音楽生成モデルは近年著しい進展を遂げているが、これまでのところ一貫した音楽的構造を持つ長尺の音楽曲を生成するには至っていなかった。本研究では、長時間の時系列コンテキストを用いて生成モデルを学習させることで、最大4分45秒に及ぶ長尺な音楽を生成可能であることを示す。本モデルは、非常に低サンプリングされた連続的な潜在表現(潜在レート21.5Hz)を扱う拡散変換器(diffusion-transformer)から構成されている。音声品質およびプロンプトの整合性に関する指標において、最先端の生成性能を達成しており、主観評価試験でも、一貫した構造を持つ長尺な音楽を生成できることを確認した。