GTZAN-Datensatz Zur Klassifizierung Von Musikgenres
Datum
Größe
Veröffentlichungs-URL
Kategorien
Der GTZAN-Datensatz ist der am häufigsten verwendete öffentliche Datensatz in der Untersuchung der Musikgenreerkennung (MGR) durch maschinelles Zuhören. Die Dateien wurden in den Jahren 2000–2001 aus verschiedenen Quellen gesammelt, darunter persönliche CDs, Radio- und Mikrofonaufnahmen.
Der GTZAN-Datensatz ist ein Standarddatensatz, der häufig zum Abrufen von Musikinformationen, zur Musikklassifizierung und für andere musikbezogene Aufgaben verwendet wird. Es enthält 1000 Musikbeispiele aus 10 verschiedenen Genres, mit 100 Beispielen aus jedem Genre. Diese Audiobeispiele sind 30 Sekunden lang, mit 22.050 Hz abgetastet und im 16-Bit-Mono-WAV-Format gespeichert. Dieser Datensatz wurde ursprünglich vom Marsyas Music Information Retrieval Toolkit erstellt und wird häufig zur Bewertung der Leistung von Musikklassifizierungsalgorithmen verwendet.
Der Datensatz enthält:
- Ursprüngliches Genre– Eine Sammlung von 10 Genres mit jeweils 100 Audiodateien, alle 30 Sekunden lang (der berühmte GTZAN-Datensatz, MNIST für Ton)
- Originalbild– Visuelle Darstellung jeder Audiodatei. Eine Möglichkeit zur Klassifizierung von Daten ist die Verwendung eines neuronalen Netzwerks. Da neuronale Netzwerke (wie das CNN, das wir heute verwenden werden) normalerweise eine Art Bilddarstellung voraussetzen, werden die Audiodateien zu diesem Zweck in Mel-Spektrogramme umgewandelt.
- 2 CSV-Dateien– Enthält die Eigenschaften der Audiodatei. Eine Datei enthält den Mittelwert und die Varianz für jedes Lied (30 Sekunden lang), die mithilfe mehrerer Merkmale berechnet werden, die aus den Audiodateien extrahiert werden können. Die andere Datei hat die gleiche Struktur, aber das Lied ist in 3-Sekunden-Audiodateien aufgeteilt.