HyperAIHyperAI

Command Palette

Search for a command to run...

Free Spoken Digit Dataset (FSDD) Digitaler Audio-Erkennungsdatensatz

Datum

vor einem Jahr

Größe

15.67 MB

Veröffentlichungs-URL

github.com

Lizenz

CC BY-SA 4.0

Der Free Spoken Digit Dataset (FSDD) ist ein einfacher Audio-/Sprachdatensatz, der aus digitalen Sprachaufnahmen in WAV-Dateien mit einer Abtastrate von 8 kHz besteht. Die Aufnahmen wurden bearbeitet, um die Stille am Anfang und Ende zu minimieren. Der Datensatz ist offen, das heißt, er wird mit der Zeit wachsen, da weiterhin Daten beigesteuert werden.

Der FSDD-Datensatz umfasst aktuell (Stand: Juli 2024):

  • 6 verschiedene Lautsprecher
  • 3.000 Aufnahmen (50 pro Sprecher)
  • Englische Aussprache

Die Dateien im Datensatz werden nach einem bestimmten Format benannt, zum Beispiel:{digitLabel}_{speakerName}_{index}.wav . Beispielsweise der Dateiname 7_jackson_32.wav Zeigt die 32. Aufnahme von Nummer 7 durch Sprecher Jackson an.

Der FSDD-Datensatz steht nicht nur der akademischen Forschung zur Verfügung, sondern die Community wird auch ermutigt, eigene Aufzeichnungen beizutragen. Alle Aufnahmen sollten Mono-WAV-Dateien mit 8 kHz sein und so zugeschnitten sein, dass Stille minimiert wird.

FSDD.torrent
Seeding 1Herunterladen 0Abgeschlossen 166Gesamtdownloads 350
  • FSDD/
    • README.md
      1.6 KB
    • README.txt
      3.2 KB
      • data/
        • free-spoken-digit-dataset-master.zip
          15.67 MB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Free Spoken Digit Dataset (FSDD) Digitaler Audio-Erkennungsdatensatz | Datensätze | HyperAI