Command Palette
Search for a command to run...
Ensemble De Données Vocales À Large Bande Passante À Grande Échelle HiFiTTS-2
Date
URL de l'article
Licence
CC BY 4.0
HiFiTTS-2 est un ensemble de données vocales à large bande passante à grande échelle publié par NVIDIA en 2025. Les résultats de l'article associé sont « HiFiTTS-2 : un ensemble de données vocales à large bande passante et à grande échelle », conçu pour soutenir la formation et l'évaluation de modèles de synthèse vocale (TTS) à zéro coup de haute qualité.
Cet ensemble de données contient des métadonnées audio de 5 000 locuteurs, soit environ 36 700 heures d'enregistrements de discours en anglais à 22,05 kHz et 31 700 heures à 44,1 kHz, classées par qualité de bande passante et fréquence d'échantillonnage. Ces données proviennent des livres audio LibriVox, téléchargeables sur le site. Elles sont échantillonnées à 48 kHz, ce qui les rend adaptées à l'apprentissage de vocodeurs haute résolution et de modèles de synthèse vocale non autorégressive.
Les données comprennent :
- Audio vocal (22 kHz / 44 kHz, mono)
- Transcription et métadonnées du chapitre/épisode
- Estimation de la qualité du locuteur et de la bande passante, horodatage de segmentation
- Manifestes de formation/validation et exemples de configurations
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.