HyperAIHyperAI

Command Palette

Search for a command to run...

HiFiTTS-2:大規模高帯域音声データセット

Ryan Langman Xuesong Yang Paarth Neekhara Shehzeen Hussain et al

概要

本稿では、高帯域音声合成を目的として設計された大規模音声データセット「HiFiTTS-2」を紹介する。このデータセットはLibriVoxのオーディオブックから構成されており、22.05 kHzでの学習に約36.7千時間の英語音声、44.1 kHzでの学習に約31.7千時間の英語音声を含んでいる。本研究では、帯域幅推定、音声分割、テキスト前処理、マルチスピーカー検出を含むデータ処理パイプラインを提案する。また、本パイプラインによって生成された詳細な発話およびオーディオブックのメタデータをデータセットとともに提供しており、研究者がデータ品質フィルタを適用することで、さまざまな用途に応じたデータセットのカスタマイズが可能となる。実験結果から、本研究のデータ処理パイプラインおよび得られたデータセットが、高帯域における高品質なゼロショット音声合成(TTS)モデルの学習を効果的に支援できることを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
HiFiTTS-2:大規模高帯域音声データセット | 記事 | HyperAI超神経