2ヶ月前

JEN-1: テキストガイダンスによる全方向拡散モデルを用いた普遍的な音楽生成

Li, Peike ; Chen, Boyu ; Yao, Yao ; Wang, Yikai ; Wang, Allen ; Wang, Alex
JEN-1: テキストガイダンスによる全方向拡散モデルを用いた普遍的な音楽生成
要約

音楽生成は、深層生成モデルの進歩に伴い、ますます注目を集めています。しかし、テキスト記述に基づいて音楽を生成するタスク(テキストから音楽への変換、text-to-music)は、音楽構造の複雑さと高いサンプリングレートの要件により、依然として困難を伴っています。このタスクの重要性にもかかわらず、現行の生成モデルは音楽品質、計算効率性、汎化能力において制限があることが示されています。本論文では、JEN-1という普遍的な高忠実度モデルを紹介します。JEN-1は、自己回帰および非自己回帰訓練を組み合わせた拡散モデルです。コンテクスト内学習を通じて、JEN-1はテキストガイドによる音楽生成、音楽インペイント(music inpainting)、継続生成などの様々な生成タスクを遂行します。評価結果は、JEN-1がテキストと音楽の整合性や音楽品質において最先端の手法よりも優れた性能を示していることを示しています。また、計算効率性も維持しています。デモは以下のURLで利用可能です: https://jenmusic.ai/audio-demos

JEN-1: テキストガイダンスによる全方向拡散モデルを用いた普遍的な音楽生成 | 最新論文 | HyperAI超神経