il y a 2 mois

Classification multi-étiquettes des genres musicaux à partir d'audio, de texte et d'images en utilisant des caractéristiques profondes

Sergio Oramas; Oriol Nieto; Francesco Barbieri; Xavier Serra

Résumé

Les genres musicaux permettent de catégoriser les œuvres musicales qui partagent des caractéristiques communes. Bien que ces catégories ne soient pas mutuellement exclusives, la plupart des recherches connexes se concentrent traditionnellement sur la classification des pistes dans une seule classe. De plus, ces catégories (par exemple, Pop, Rock) sont souvent trop larges pour certaines applications. Dans ce travail, nous visons à élargir cette tâche en classifiant les œuvres musicales dans plusieurs étiquettes fines, en utilisant trois modalités de données différentes : audio, texte et images. À cet effet, nous présentons MuMu, un nouveau jeu de données comprenant plus de 31 000 albums classés dans 250 classes de genres. Pour chaque album, nous avons collecté l'image de la pochette, les critiques textuelles et les pistes audio. De plus, nous proposons une approche de classification multi-étiquettes des genres basée sur la combinaison d'embeddings de caractéristiques appris avec des méthodologies d'apprentissage profond d'avant-garde. Les expériences montrent des différences importantes entre les modalités, ce qui non seulement introduit de nouvelles références pour la classification multi-étiquettes des genres, mais suggère également que leur combinaison améliore les résultats.