Command Palette
Search for a command to run...
HiFiTTS-2:大規模高帯域音声データセット
HiFiTTS-2:大規模高帯域音声データセット
Ryan Langman Xuesong Yang Paarth Neekhara Shehzeen Hussain et al
概要
本稿では、高帯域音声合成を目的として設計された大規模音声データセット「HiFiTTS-2」を紹介する。このデータセットはLibriVoxのオーディオブックから構成されており、22.05 kHzでの学習に約36.7千時間の英語音声、44.1 kHzでの学習に約31.7千時間の英語音声を含んでいる。本研究では、帯域幅推定、音声分割、テキスト前処理、マルチスピーカー検出を含むデータ処理パイプラインを提案する。また、本パイプラインによって生成された詳細な発話およびオーディオブックのメタデータをデータセットとともに提供しており、研究者がデータ品質フィルタを適用することで、さまざまな用途に応じたデータセットのカスタマイズが可能となる。実験結果から、本研究のデータ処理パイプラインおよび得られたデータセットが、高帯域における高品質なゼロショット音声合成(TTS)モデルの学習を効果的に支援できることを示した。