2ヶ月前
ETTA: テキストからオーディオへのモデルの設計空間を解明する
Lee, Sang-gil ; Kong, Zhifeng ; Goel, Arushi ; Kim, Sungwon ; Valle, Rafael ; Catanzaro, Bryan

要約
近年、テキスト・トゥ・オーディオ(TTA)合成技術において著しい進歩が見られ、ユーザーは自然言語のプロンプトから生成された合成音声を用いて創造的なワークフローを豊かにすることができるようになりました。しかしながら、データ、モデルアーキテクチャ、学習目的関数、およびサンプリング戦略が目標ベンチマークに及ぼす影響については十分に理解されていません。TTAモデルの設計空間に対する包括的な理解を提供することを目的として、我々は拡散型とフローマッチング型モデルに焦点を当てた大規模な実験を行いました。本研究の貢献は以下の通りです:1) AF-Synthetic:高品質な合成キャプションを収録した大規模データセットで、これはオーディオ理解モデルから得られたものです;2) TTAモデルにおける異なるアーキテクチャ、学習方法、推論設計選択肢の系統的な比較;3) 生成品質と推論速度に関するサンプリング手法とそのパレート曲線の分析。この広範な分析から得られた知識に基づき、最良のモデルである「Elucidated Text-To-Audio(ETTA)」を提案します。AudioCapsおよびMusicCapsでの評価では、公開データで学習されたベースラインよりも改善が見られるとともに、独自データで学習されたモデルと競争力のある結果を示しました。最後に、複雑で想像力豊かなキャプションに従って創造的な音声を生成する能力についてもETTAの優れた性能を示します——これは現在のベンチマークよりも難しい課題です。