16日前

Make-An-Audio:プロンプト強化型拡散モデルを用いたテキスト到音声生成

Rongjie Huang, Jiawei Huang, Dongchao Yang, Yi Ren, Luping Liu, Mingze Li, Zhenhui Ye, Jinglin Liu, Xiang Yin, Zhou Zhao
Make-An-Audio:プロンプト強化型拡散モデルを用いたテキスト到音声生成
要約

大規模なマルチモーダル生成モデルは、テキストから画像、およびテキストから動画を生成する分野で画期的な進展を遂げました。一方で、音声生成への応用は、主に以下の2つの理由から遅れをとっています:高品質なテキスト-音声ペアを含む大規模データセットの不足、および長時間連続した音声データをモデル化する際の複雑さです。本研究では、プロンプト強化型拡散モデルを採用した「Make-An-Audio」を提案し、これらの課題を解決します。具体的には、1) 言語を用いない音声を活用した「蒸留後に再プログラムする(distill-then-reprogram)」アプローチによる擬似プロンプト強化により、言語を介さない音声を用いて、オーダー級の概念合成を実現し、データ不足の問題を緩和;2) 波形ではなくスペクトログラム自己符号化器(spectrogram autoencoder)を活用して自己教師付き音声表現を予測することで、長時間音声データのモデリングを効率化。さらに、強力な対照的言語-音声事前学習(CLAP)表現と組み合わせることで、Make-An-Audioは客観的・主観的評価の両面で最先端の性能を達成しました。さらに本研究では、「モダリティを1つも残さない(No Modality Left Behind)」というアプローチにより、X-to-Audio(任意のモダリティ入力から音声生成)における制御性および汎化能力を初めて実証し、ユーザー定義のモダリティ入力に基づき高精細・高忠実度の音声を生成する能力を実現しました。音声サンプルは以下のURLにて公開されています:https://Text-to-Audio.github.io

Make-An-Audio:プロンプト強化型拡散モデルを用いたテキスト到音声生成 | 最新論文 | HyperAI超神経