Apprentissage des caractéristiques de la musique à partir de zéro

Ce document présente un nouveau jeu de données musical à grande échelle, MusicNet, destiné à servir de source de supervision et d'évaluation des méthodes d'apprentissage automatique pour la recherche musicale. MusicNet comprend des centaines d'enregistrements de musique classique sous licence libre, réalisés par 10 compositeurs et écrits pour 11 instruments, accompagnés d'annotations d'instruments/notes qui aboutissent à plus d'un million d'étiquettes temporelles sur 34 heures de performances de musique de chambre dans diverses conditions d'enregistrement en studio et avec différents microphones.Le document définit une tâche de classification multi-étiquettes visant à prédire les notes dans les enregistrements musicaux, ainsi qu'un protocole d'évaluation, et compare plusieurs architectures d'apprentissage automatique pour cette tâche : i) apprentissage à partir de caractéristiques spectrogrammes ; ii) apprentissage bout-à-bout avec un réseau neuronal ; iii) apprentissage bout-à-bout avec un réseau neuronal convolutif. Ces expériences montrent que les modèles bout-à-bout formés pour la prédiction des notes apprennent des filtres sélectifs en fréquence comme représentation bas-niveau du signal audio.