HyperAIHyperAI

Command Palette

Search for a command to run...

Mehr-Label-Musikgenre-Klassifizierung aus Audio, Text und Bildern unter Verwendung tiefer Merkmale

Sergio Oramas Oriol Nieto Francesco Barbieri Xavier Serra

Zusammenfassung

Musikgenres ermöglichen es, musikalische Elemente nach gemeinsamen Merkmalen zu kategorisieren. Obwohl diese Kategorien nicht ausschließlich sind, konzentriert sich die meisten verwandte Forschung traditionell darauf, Tracks in eine einzelne Klasse einzuordnen. Darüber hinaus sind diese Kategorien (z.B. Pop, Rock) für bestimmte Anwendungen oft zu umfassend. In dieser Arbeit streben wir an, diese Aufgabe durch die Einordnung von musikalischen Elementen in mehrere und feingranulare Labels zu erweitern, wobei wir drei verschiedene Datenmodalitäten verwenden: Audio, Text und Bilder. Zu diesem Zweck präsentieren wir MuMu, einen neuen Datensatz mit über 31.000 Alben, die in 250 Genre-Klassen klassifiziert wurden. Für jedes Album haben wir das Coverbild, Textrezensionen und Audiospuren gesammelt. Zudem schlagen wir einen Ansatz für die Multi-Label-Genre-Klassifikation vor, der auf der Kombination von Merkmals-Einbettungen beruht, die mit den neuesten Methoden des tiefen Lernens gelernt wurden. Experimente zeigen erhebliche Unterschiede zwischen den Modalitäten, die nicht nur neue Baseline-Modelle für die Multi-Label-Genre-Klassifikation einführen, sondern auch darauf hinweisen, dass ihre Kombination verbesserte Ergebnisse liefert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp