HyperAIHyperAI

Command Palette

Search for a command to run...

Classification multi-étiquettes des genres musicaux à partir d'audio, de texte et d'images en utilisant des caractéristiques profondes

Sergio Oramas Oriol Nieto Francesco Barbieri Xavier Serra

Résumé

Les genres musicaux permettent de catégoriser les œuvres musicales qui partagent des caractéristiques communes. Bien que ces catégories ne soient pas mutuellement exclusives, la plupart des recherches connexes se concentrent traditionnellement sur la classification des pistes dans une seule classe. De plus, ces catégories (par exemple, Pop, Rock) sont souvent trop larges pour certaines applications. Dans ce travail, nous visons à élargir cette tâche en classifiant les œuvres musicales dans plusieurs étiquettes fines, en utilisant trois modalités de données différentes : audio, texte et images. À cet effet, nous présentons MuMu, un nouveau jeu de données comprenant plus de 31 000 albums classés dans 250 classes de genres. Pour chaque album, nous avons collecté l'image de la pochette, les critiques textuelles et les pistes audio. De plus, nous proposons une approche de classification multi-étiquettes des genres basée sur la combinaison d'embeddings de caractéristiques appris avec des méthodologies d'apprentissage profond d'avant-garde. Les expériences montrent des différences importantes entre les modalités, ce qui non seulement introduit de nouvelles références pour la classification multi-étiquettes des genres, mais suggère également que leur combinaison améliore les résultats.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp