HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données Vocales À Large Bande Passante À Grande Échelle HiFiTTS-2

Discuss on Discord

Date

il y a 4 mois

Organization

NVIDIA

Paper URL

2506.04152

License

CC BY 4.0

HiFiTTS-2 est un ensemble de données vocales à large bande passante à grande échelle publié par NVIDIA en 2025. Les résultats de l'article associé sont « HiFiTTS-2 : un ensemble de données vocales à large bande passante et à grande échelle », conçu pour soutenir la formation et l'évaluation de modèles de synthèse vocale (TTS) à zéro coup de haute qualité.

Cet ensemble de données contient des métadonnées audio de 5 000 locuteurs, soit environ 36 700 heures d'enregistrements de discours en anglais à 22,05 kHz et 31 700 heures à 44,1 kHz, classées par qualité de bande passante et fréquence d'échantillonnage. Ces données proviennent des livres audio LibriVox, téléchargeables sur le site. Elles sont échantillonnées à 48 kHz, ce qui les rend adaptées à l'apprentissage de vocodeurs haute résolution et de modèles de synthèse vocale non autorégressive.

Les données comprennent :

  • Audio vocal (22 kHz / 44 kHz, mono)
  • Transcription et métadonnées du chapitre/épisode
  • Estimation de la qualité du locuteur et de la bande passante, horodatage de segmentation
  • Manifestes de formation/validation et exemples de configurations

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp