Ensemble De Données Numériques Parlées Libres (FSDD) Ensemble De Données Audio De Reconnaissance Numérique
Date
Taille
URL de publication
Licence
CC BY-SA 4.0
Le Free Spoken Digit Dataset (FSDD) est un ensemble de données audio/vocales simple composé d'enregistrements vocaux numériques dans des fichiers wav avec un taux d'échantillonnage de 8 kHz. Les enregistrements ont été édités pour minimiser le silence au début et à la fin. L'ensemble de données est ouvert, ce qui signifie qu'il s'agrandira au fil du temps à mesure que des données continueront d'être fournies.
L'ensemble de données FSDD comprend actuellement (en juillet 2024) :
- 6 haut-parleurs différents
- 3 000 enregistrements (50 par intervenant)
- Prononciation anglaise
Les fichiers de l'ensemble de données sont nommés selon un format spécifique, par exemple :{digitLabel}_{speakerName}_{index}.wav
. Par exemple, le nom du fichier 7_jackson_32.wav
Indique le 32e enregistrement du numéro 7 par le président Jackson.
L'ensemble de données FSDD n'est pas seulement disponible pour la recherche universitaire, mais la communauté est également encouragée à contribuer avec ses propres enregistrements. Tous les enregistrements doivent être des fichiers wav mono 8 kHz, recadrés pour minimiser le silence.