2ヶ月前
テキストから音声へのモデルを合成キャプションで改善する
Kong, Zhifeng ; Lee, Sang-gil ; Ghosal, Deepanway ; Majumder, Navonil ; Mehrish, Ambuj ; Valle, Rafael ; Poria, Soujanya ; Catanzaro, Bryan

要約
高品質の学習データ、特にキャプションを取得することは、テキストから音声への変換モデルにとって開放的な課題である。従来の手法では、\textit{テキストのみ言語モデル}(text-only language models)を使用してキャプションを補完し改善してきたが、これらの手法にはスケールと音声とキャプションの整合性に関する制限がある。本研究では、\textit{音声言語モデル}(audio language model)を使用して大量の正確で多様なキャプションを生成するための音声キャプション作成パイプラインを提案する。このパイプラインを利用して、AudioSet用の合成キャプションデータセットを作成し、これを\texttt{AF-AudioSet}と命名した。その後、これらの合成キャプション上で事前学習を行うことでテキストから音声への変換モデルの性能向上に寄与するか評価を行った。AudioCapsおよびMusicCapsにおける系統的な評価を通じて、我々のパイプラインと合成キャプションを利用することで音声生成品質に大幅な改善が見られ、新たな\textit{最先端}(state-of-the-art)を達成したことが確認された。