Command Palette
Search for a command to run...
Free Spoken Digit Dataset (FSDD) Digitaler Audio-Erkennungsdatensatz
Der Free Spoken Digit Dataset (FSDD) ist ein einfacher Audio-/Sprachdatensatz, der aus digitalen Sprachaufnahmen in WAV-Dateien mit einer Abtastrate von 8 kHz besteht. Die Aufnahmen wurden bearbeitet, um die Stille am Anfang und Ende zu minimieren. Der Datensatz ist offen, das heißt, er wird mit der Zeit wachsen, da weiterhin Daten beigesteuert werden.
Der FSDD-Datensatz umfasst aktuell (Stand: Juli 2024):
- 6 verschiedene Lautsprecher
- 3.000 Aufnahmen (50 pro Sprecher)
- Englische Aussprache
Die Dateien im Datensatz werden nach einem bestimmten Format benannt, zum Beispiel:{digitLabel}_{speakerName}_{index}.wav . Beispielsweise der Dateiname 7_jackson_32.wav Zeigt die 32. Aufnahme von Nummer 7 durch Sprecher Jackson an.
Der FSDD-Datensatz steht nicht nur der akademischen Forschung zur Verfügung, sondern die Community wird auch ermutigt, eigene Aufzeichnungen beizutragen. Alle Aufnahmen sollten Mono-WAV-Dateien mit 8 kHz sein und so zugeschnitten sein, dass Stille minimiert wird.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.