HyperAIHyperAI
il y a 2 mois

Évaluation des modèles de tagging musical automatique basés sur les CNN

Minz Won; Andres Ferraro; Dmitry Bogdanov; Xavier Serra
Évaluation des modèles de tagging musical automatique basés sur les CNN
Résumé

Les récentes avancées dans l'apprentissage profond ont accéléré le développement de systèmes de balisage musical automatique basés sur le contenu. Les chercheurs en récupération d'information musicale (MIR) ont proposé diverses architectures, principalement fondées sur les réseaux neuronaux convolutifs (CNNs), qui obtiennent des résultats de pointe dans cette tâche de classification binaire multi-étiquettes. Cependant, en raison des différences dans les configurations expérimentales suivies par les chercheurs, telles que l'utilisation de différentes divisions de jeux de données et de versions logicielles pour l'évaluation, il est difficile de comparer directement les architectures proposées entre elles. Pour faciliter la recherche future, dans cet article, nous menons une évaluation cohérente de différents modèles de balisage musical sur trois jeux de données (MagnaTagATune, Million Song Dataset et MTG-Jamendo) et fournissons des résultats de référence à l'aide de métriques d'évaluation courantes (ROC-AUC et PR-AUC). De plus, tous les modèles sont évalués avec des entrées perturbées pour examiner leurs capacités de généralisation concernant le stretching temporel, le décalage tonal, la compression du niveau dynamique et l'ajout de bruit blanc. Pour assurer la reproductibilité, nous mettons à disposition les implémentations PyTorch avec les modèles pré-entraînés.

Évaluation des modèles de tagging musical automatique basés sur les CNN | Articles de recherche récents | HyperAI