HyperAIHyperAI
il y a 2 jours

HiFiTTS-2 : Un ensemble de données vocal large échelle à large bande

Ryan Langman, Xuesong Yang, Paarth Neekhara, Shehzeen Hussain, et al
HiFiTTS-2 : Un ensemble de données vocal large échelle à large bande
Résumé

Cet article présente HiFiTTS-2, un grand ensemble de données vocales conçu pour la synthèse vocale à large bande. L’ensemble est issu d’audiobooks LibriVox et contient environ 36,7 000 heures de parole anglaise pour l’entraînement à 22,05 kHz, ainsi que 31,7 000 heures pour l’entraînement à 44,1 kHz. Nous décrivons notre pipeline de traitement des données, comprenant l’estimation de bande passante, la segmentation, le prétraitement du texte et la détection de multiple locuteurs. L’ensemble de données est accompagné de métadonnées détaillées sur les énoncés et les audiobooks, générées par notre pipeline, permettant aux chercheurs d’appliquer des filtres de qualité des données afin d’adapter l’ensemble à diverses applications. Les résultats expérimentaux montrent que notre pipeline de traitement et le jeu de données résultant permettent de former efficacement des modèles de synthèse vocale texte-à-parole (TTS) de haute qualité, en mode zéro-shot, à des fréquences d’échantillonnage élevées.

HiFiTTS-2 : Un ensemble de données vocal large échelle à large bande | Articles de recherche récents | HyperAI