il y a 6 mois

Résumé

Cet article présente HiFiTTS-2, un grand ensemble de données vocales conçu pour la synthèse vocale à large bande. L’ensemble est issu d’audiobooks LibriVox et contient environ 36,7 000 heures de parole anglaise pour l’entraînement à 22,05 kHz, ainsi que 31,7 000 heures pour l’entraînement à 44,1 kHz. Nous décrivons notre pipeline de traitement des données, comprenant l’estimation de bande passante, la segmentation, le prétraitement du texte et la détection de multiple locuteurs. L’ensemble de données est accompagné de métadonnées détaillées sur les énoncés et les audiobooks, générées par notre pipeline, permettant aux chercheurs d’appliquer des filtres de qualité des données afin d’adapter l’ensemble à diverses applications. Les résultats expérimentaux montrent que notre pipeline de traitement et le jeu de données résultant permettent de former efficacement des modèles de synthèse vocale texte-à-parole (TTS) de haute qualité, en mode zéro-shot, à des fréquences d’échantillonnage élevées.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Ryan Langman Xuesong Yang Paarth Neekhara Shehzeen Hussain et al

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Ryan Langman Xuesong Yang Paarth Neekhara Shehzeen Hussain et al

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

HiFiTTS-2 : Un ensemble de données vocal large échelle à large bande

Ryan Langman Xuesong Yang Paarth Neekhara Shehzeen Hussain et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HiFiTTS-2 : Un ensemble de données vocal large échelle à large bande

Ryan Langman Xuesong Yang Paarth Neekhara Shehzeen Hussain et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HiFiTTS-2 : Un ensemble de données vocal large échelle à large bande

Ryan Langman Xuesong Yang Paarth Neekhara Shehzeen Hussain et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters