HyperAIHyperAI

Command Palette

Search for a command to run...

Bewertung von CNN-basierten automatischen Musik-Tagging-Modellen

Minz Won Andres Ferraro Dmitry Bogdanov Xavier Serra

Zusammenfassung

Kürzliche Fortschritte im Bereich des Deep Learnings haben die Entwicklung von inhaltsbasierten automatischen Musik-Tagging-Systemen beschleunigt. Forscher im Bereich der Musikinformationsrettung (MIR) schlugen verschiedene Architekturdesigns vor, hauptsächlich auf konvolutionellen neuronalen Netzen (CNNs) basierend, die in dieser Multi-Label-Binären-Klassifikationsaufgabe state-of-the-art Ergebnisse erzielen. Allerdings erschweren Unterschiede in den von den Forschern verwendeten Experimentalaufbauten, wie zum Beispiel unterschiedliche Datensatzspaltungen und Softwareversionen zur Bewertung, einen direkten Vergleich der vorgeschlagenen Architekturen. Um weitere Forschung zu erleichtern, führen wir in diesem Artikel eine konsistente Evaluierung verschiedener Musik-Tagging-Modelle auf drei Datensätzen (MagnaTagATune, Million Song Dataset und MTG-Jamendo) durch und stellen Referenzergebnisse unter Verwendung gängiger Evaluationsmetriken (ROC-AUC und PR-AUC) bereit. Darüber hinaus werden alle Modelle mit gestörten Eingaben evaluiert, um ihre Generalisierungsfähigkeiten bezüglich Zeitstreckung, Tonhöhenverschiebung, Dynamikbereichskompression und Hinzufügen von Weißem Rauschen zu untersuchen. Zur Wiederholbarkeit der Ergebnisse stellen wir die PyTorch-Implementierungen zusammen mit den vorgefertigten Modellen zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp