HyperAIHyperAI

Command Palette

Search for a command to run...

Make-An-Audio 2: 時間強化型テキストからオーディオの生成

Jiawei Huang Yi Ren Rongjie Huang Dongchao Yang Zhenhui Ye Chen Zhang Jinglin Liu Xiang Yin Zejun Ma Zhou Zhao

概要

大規模拡散モデルはテキストから音声への変換(Text-to-Audio, T2A)タスクで成功を収めてきましたが、自然言語理解の限界やデータの不足により、意味的不整合や時間的一貫性の欠如などの一般的な問題をしばしば抱えています。さらに、T2Aの研究で広く使用されている2次元空間構造は、可変長音声サンプルを生成する際に時間的情報を十分に優先できないため、音質が満足いくものにならないことがあります。これらの課題に対処するために、私たちはMake-an-Audio 2という潜在的な拡散に基づくT2A手法を提案します。この手法はMake-an-Audioの成功を基盤としています。私たちのアプローチには、意味的整合性と時間的一貫性を改善するためのいくつかの技術が含まれています。まず、事前学習された大規模言語モデル(Large Language Models, LLMs)を使用して、テキストをより良い時間的情報取得のために構造化された<イベント & 順序>ペアに解析します。また、拡散デノイジングプロセス中に意味的整合性の学習を支援する別の構造化テキストエンコーダーも導入しています。可変長生成の性能向上と時間的情報抽出の強化のために、フィードフォワードトランスフォーマーに基づく拡散デノイザーを設計しました。最後に、LLMsを使用して大量のオーディオ-ラベルデータをオーディオ-テキストデータセットに増強および変換することで、時間的データの不足問題を軽減しています。多数の実験結果から、私たち的方法は客観的および主観的な指標においてベースラインモデルを超えており、時間的情報理解、意味的一貫性、音質において有意な改善が見られています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています