HyperAIHyperAI

Command Palette

Search for a command to run...

テキストから音声へのモデルを合成キャプションで改善する

Zhifeng Kong Sang-gil Lee Deepanway Ghosal Navonil Majumder Ambuj Mehrish Rafael Valle Soujanya Poria Bryan Catanzaro

概要

高品質の学習データ、特にキャプションを取得することは、テキストから音声への変換モデルにとって開放的な課題である。従来の手法では、\textit{テキストのみ言語モデル}(text-only language models)を使用してキャプションを補完し改善してきたが、これらの手法にはスケールと音声とキャプションの整合性に関する制限がある。本研究では、\textit{音声言語モデル}(audio language model)を使用して大量の正確で多様なキャプションを生成するための音声キャプション作成パイプラインを提案する。このパイプラインを利用して、AudioSet用の合成キャプションデータセットを作成し、これを\texttt{AF-AudioSet}と命名した。その後、これらの合成キャプション上で事前学習を行うことでテキストから音声への変換モデルの性能向上に寄与するか評価を行った。AudioCapsおよびMusicCapsにおける系統的な評価を通じて、我々のパイプラインと合成キャプションを利用することで音声生成品質に大幅な改善が見られ、新たな\textit{最先端}(state-of-the-art)を達成したことが確認された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています