2ヶ月前

Make-An-Audio 2: 時間強化型テキストからオーディオの生成

Jiawei Huang; Yi Ren; Rongjie Huang; Dongchao Yang; Zhenhui Ye; Chen Zhang; Jinglin Liu; Xiang Yin; Zejun Ma; Zhou Zhao
Make-An-Audio 2: 時間強化型テキストからオーディオの生成
要約

大規模拡散モデルはテキストから音声への変換(Text-to-Audio, T2A)タスクで成功を収めてきましたが、自然言語理解の限界やデータの不足により、意味的不整合や時間的一貫性の欠如などの一般的な問題をしばしば抱えています。さらに、T2Aの研究で広く使用されている2次元空間構造は、可変長音声サンプルを生成する際に時間的情報を十分に優先できないため、音質が満足いくものにならないことがあります。これらの課題に対処するために、私たちはMake-an-Audio 2という潜在的な拡散に基づくT2A手法を提案します。この手法はMake-an-Audioの成功を基盤としています。私たちのアプローチには、意味的整合性と時間的一貫性を改善するためのいくつかの技術が含まれています。まず、事前学習された大規模言語モデル(Large Language Models, LLMs)を使用して、テキストをより良い時間的情報取得のために構造化された<イベント & 順序>ペアに解析します。また、拡散デノイジングプロセス中に意味的整合性の学習を支援する別の構造化テキストエンコーダーも導入しています。可変長生成の性能向上と時間的情報抽出の強化のために、フィードフォワードトランスフォーマーに基づく拡散デノイザーを設計しました。最後に、LLMsを使用して大量のオーディオ-ラベルデータをオーディオ-テキストデータセットに増強および変換することで、時間的データの不足問題を軽減しています。多数の実験結果から、私たち的方法は客観的および主観的な指標においてベースラインモデルを超えており、時間的情報理解、意味的一貫性、音質において有意な改善が見られています。

Make-An-Audio 2: 時間強化型テキストからオーディオの生成 | 最新論文 | HyperAI超神経