HyperAI

Free Spoken Digit Dataset (FSDD) Digitaler Audio-Erkennungsdatensatz

Datum

vor 10 Monaten

Größe

15.67 MB

Veröffentlichungs-URL

github.com

Lizenz

CC BY-SA 4.0

Der Free Spoken Digit Dataset (FSDD) ist ein einfacher Audio-/Sprachdatensatz, der aus digitalen Sprachaufnahmen in WAV-Dateien mit einer Abtastrate von 8 kHz besteht. Die Aufnahmen wurden bearbeitet, um die Stille am Anfang und Ende zu minimieren. Der Datensatz ist offen, das heißt, er wird mit der Zeit wachsen, da weiterhin Daten beigesteuert werden.

Der FSDD-Datensatz umfasst aktuell (Stand: Juli 2024):

  • 6 verschiedene Lautsprecher
  • 3.000 Aufnahmen (50 pro Sprecher)
  • Englische Aussprache

Die Dateien im Datensatz werden nach einem bestimmten Format benannt, zum Beispiel:{digitLabel}_{speakerName}_{index}.wav . Beispielsweise der Dateiname 7_jackson_32.wav Zeigt die 32. Aufnahme von Nummer 7 durch Sprecher Jackson an.

Der FSDD-Datensatz steht nicht nur der akademischen Forschung zur Verfügung, sondern die Community wird auch ermutigt, eigene Aufzeichnungen beizutragen. Alle Aufnahmen sollten Mono-WAV-Dateien mit 8 kHz sein und so zugeschnitten sein, dass Stille minimiert wird.

FSDD.torrent
Seeding 1Herunterladen 1Abgeschlossen 78Gesamtdownloads 131
  • FSDD/
    • README.md
      1.6 KB
    • README.txt
      3.2 KB
      • data/
        • free-spoken-digit-dataset-master.zip
          15.67 MB