HyperAIHyperAI
vor 2 Monaten

Bewertung von CNN-basierten automatischen Musik-Tagging-Modellen

Minz Won; Andres Ferraro; Dmitry Bogdanov; Xavier Serra
Bewertung von CNN-basierten automatischen Musik-Tagging-Modellen
Abstract

Kürzliche Fortschritte im Bereich des Deep Learnings haben die Entwicklung von inhaltsbasierten automatischen Musik-Tagging-Systemen beschleunigt. Forscher im Bereich der Musikinformationsrettung (MIR) schlugen verschiedene Architekturdesigns vor, hauptsächlich auf konvolutionellen neuronalen Netzen (CNNs) basierend, die in dieser Multi-Label-Binären-Klassifikationsaufgabe state-of-the-art Ergebnisse erzielen. Allerdings erschweren Unterschiede in den von den Forschern verwendeten Experimentalaufbauten, wie zum Beispiel unterschiedliche Datensatzspaltungen und Softwareversionen zur Bewertung, einen direkten Vergleich der vorgeschlagenen Architekturen. Um weitere Forschung zu erleichtern, führen wir in diesem Artikel eine konsistente Evaluierung verschiedener Musik-Tagging-Modelle auf drei Datensätzen (MagnaTagATune, Million Song Dataset und MTG-Jamendo) durch und stellen Referenzergebnisse unter Verwendung gängiger Evaluationsmetriken (ROC-AUC und PR-AUC) bereit. Darüber hinaus werden alle Modelle mit gestörten Eingaben evaluiert, um ihre Generalisierungsfähigkeiten bezüglich Zeitstreckung, Tonhöhenverschiebung, Dynamikbereichskompression und Hinzufügen von Weißem Rauschen zu untersuchen. Zur Wiederholbarkeit der Ergebnisse stellen wir die PyTorch-Implementierungen zusammen mit den vorgefertigten Modellen zur Verfügung.

Bewertung von CNN-basierten automatischen Musik-Tagging-Modellen | Neueste Forschungsarbeiten | HyperAI