6ヶ月前

データセット

AIインフラストラクチャ

オーディオ

Ryan Langman Xuesong Yang Paarth Neekhara Shehzeen Hussain et al

概要

本稿では、高帯域音声合成を目的として設計された大規模音声データセット「HiFiTTS-2」を紹介する。このデータセットはLibriVoxのオーディオブックから構成されており、22.05 kHzでの学習に約36.7千時間の英語音声、44.1 kHzでの学習に約31.7千時間の英語音声を含んでいる。本研究では、帯域幅推定、音声分割、テキスト前処理、マルチスピーカー検出を含むデータ処理パイプラインを提案する。また、本パイプラインによって生成された詳細な発話およびオーディオブックのメタデータをデータセットとともに提供しており、研究者がデータ品質フィルタを適用することで、さまざまな用途に応じたデータセットのカスタマイズが可能となる。実験結果から、本研究のデータ処理パイプラインおよび得られたデータセットが、高帯域における高品質なゼロショット音声合成（TTS）モデルの学習を効果的に支援できることを示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

データセット

AIインフラストラクチャ

オーディオ

Ryan Langman Xuesong Yang Paarth Neekhara Shehzeen Hussain et al

概要

本稿では、高帯域音声合成を目的として設計された大規模音声データセット「HiFiTTS-2」を紹介する。このデータセットはLibriVoxのオーディオブックから構成されており、22.05 kHzでの学習に約36.7千時間の英語音声、44.1 kHzでの学習に約31.7千時間の英語音声を含んでいる。本研究では、帯域幅推定、音声分割、テキスト前処理、マルチスピーカー検出を含むデータ処理パイプラインを提案する。また、本パイプラインによって生成された詳細な発話およびオーディオブックのメタデータをデータセットとともに提供しており、研究者がデータ品質フィルタを適用することで、さまざまな用途に応じたデータセットのカスタマイズが可能となる。実験結果から、本研究のデータ処理パイプラインおよび得られたデータセットが、高帯域における高品質なゼロショット音声合成（TTS）モデルの学習を効果的に支援できることを示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています