HyperAI

Ensemble De Données Numériques Parlées Libres (FSDD) Ensemble De Données Audio De Reconnaissance Numérique

Date

il y a un an

Taille

15.67 MB

URL de publication

github.com

Licence

CC BY-SA 4.0

Le Free Spoken Digit Dataset (FSDD) est un ensemble de données audio/vocales simple composé d'enregistrements vocaux numériques dans des fichiers wav avec un taux d'échantillonnage de 8 kHz. Les enregistrements ont été édités pour minimiser le silence au début et à la fin. L'ensemble de données est ouvert, ce qui signifie qu'il s'agrandira au fil du temps à mesure que des données continueront d'être fournies.

L'ensemble de données FSDD comprend actuellement (en juillet 2024) :

  • 6 haut-parleurs différents
  • 3 000 enregistrements (50 par intervenant)
  • Prononciation anglaise

Les fichiers de l'ensemble de données sont nommés selon un format spécifique, par exemple :{digitLabel}_{speakerName}_{index}.wav . Par exemple, le nom du fichier 7_jackson_32.wav Indique le 32e enregistrement du numéro 7 par le président Jackson.

L'ensemble de données FSDD n'est pas seulement disponible pour la recherche universitaire, mais la communauté est également encouragée à contribuer avec ses propres enregistrements. Tous les enregistrements doivent être des fichiers wav mono 8 kHz, recadrés pour minimiser le silence.

FSDD.torrent
Partage 1Téléchargement 0Terminés 104Téléchargements totaux 205
  • FSDD/
    • README.md
      1.6 KB
    • README.txt
      3.2 KB
      • data/
        • free-spoken-digit-dataset-master.zip
          15.67 MB