Mehr-Label-Musikgenre-Klassifizierung aus Audio, Text und Bildern unter Verwendung tiefer Merkmale

Musikgenres ermöglichen es, musikalische Elemente nach gemeinsamen Merkmalen zu kategorisieren. Obwohl diese Kategorien nicht ausschließlich sind, konzentriert sich die meisten verwandte Forschung traditionell darauf, Tracks in eine einzelne Klasse einzuordnen. Darüber hinaus sind diese Kategorien (z.B. Pop, Rock) für bestimmte Anwendungen oft zu umfassend. In dieser Arbeit streben wir an, diese Aufgabe durch die Einordnung von musikalischen Elementen in mehrere und feingranulare Labels zu erweitern, wobei wir drei verschiedene Datenmodalitäten verwenden: Audio, Text und Bilder. Zu diesem Zweck präsentieren wir MuMu, einen neuen Datensatz mit über 31.000 Alben, die in 250 Genre-Klassen klassifiziert wurden. Für jedes Album haben wir das Coverbild, Textrezensionen und Audiospuren gesammelt. Zudem schlagen wir einen Ansatz für die Multi-Label-Genre-Klassifikation vor, der auf der Kombination von Merkmals-Einbettungen beruht, die mit den neuesten Methoden des tiefen Lernens gelernt wurden. Experimente zeigen erhebliche Unterschiede zwischen den Modalitäten, die nicht nur neue Baseline-Modelle für die Multi-Label-Genre-Klassifikation einführen, sondern auch darauf hinweisen, dass ihre Kombination verbesserte Ergebnisse liefert.