HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données Vocales À Large Bande Passante À Grande Échelle HiFiTTS-2

Date

il y a 3 mois

Organisation

NVIDIA

URL de l'article

2506.04152

Licence

CC BY 4.0

Rejoignez la communauté Discord

HiFiTTS-2 est un ensemble de données vocales à large bande passante à grande échelle publié par NVIDIA en 2025. Les résultats de l'article associé sont « HiFiTTS-2 : un ensemble de données vocales à large bande passante et à grande échelle », conçu pour soutenir la formation et l'évaluation de modèles de synthèse vocale (TTS) à zéro coup de haute qualité.

Cet ensemble de données contient des métadonnées audio de 5 000 locuteurs, soit environ 36 700 heures d'enregistrements de discours en anglais à 22,05 kHz et 31 700 heures à 44,1 kHz, classées par qualité de bande passante et fréquence d'échantillonnage. Ces données proviennent des livres audio LibriVox, téléchargeables sur le site. Elles sont échantillonnées à 48 kHz, ce qui les rend adaptées à l'apprentissage de vocodeurs haute résolution et de modèles de synthèse vocale non autorégressive.

Les données comprennent :

  • Audio vocal (22 kHz / 44 kHz, mono)
  • Transcription et métadonnées du chapitre/épisode
  • Estimation de la qualité du locuteur et de la bande passante, horodatage de segmentation
  • Manifestes de formation/validation et exemples de configurations

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp