HyperAIHyperAI

Command Palette

Search for a command to run...

潜在拡散を用いた長文音楽生成

Zach Evans Julian D. Parker CJ Carr Zack Zukowski Josiah Taylor Jordi Pons

概要

音声に基づく音楽生成モデルは近年著しい進展を遂げているが、これまでのところ一貫した音楽的構造を持つ長尺の音楽曲を生成するには至っていなかった。本研究では、長時間の時系列コンテキストを用いて生成モデルを学習させることで、最大4分45秒に及ぶ長尺な音楽を生成可能であることを示す。本モデルは、非常に低サンプリングされた連続的な潜在表現(潜在レート21.5Hz)を扱う拡散変換器(diffusion-transformer)から構成されている。音声品質およびプロンプトの整合性に関する指標において、最先端の生成性能を達成しており、主観評価試験でも、一貫した構造を持つ長尺な音楽を生成できることを確認した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
潜在拡散を用いた長文音楽生成 | 記事 | HyperAI超神経