HyperAIHyperAI
il y a 2 mois

MT3 : Transcription musicale multitâche et multipiste

Josh Gardner; Ian Simon; Ethan Manilow; Curtis Hawthorne; Jesse Engel
MT3 : Transcription musicale multitâche et multipiste
Résumé

La Transcription Automatique de la Musique (TAM), qui consiste à inférer les notes musicales à partir d'un signal audio brut, est une tâche complexe au cœur de la compréhension musicale. Contrairement à la Reconnaissance Automatique de la Parole (RAP), qui se concentre généralement sur les mots d'un seul locuteur, la TAM nécessite souvent de transcrire simultanément plusieurs instruments, tout en préservant des informations précises sur l'intonation et le rythme. De plus, de nombreux jeux de données pour la TAM sont « à ressources limitées », car même les musiciens expérimentés trouvent que la transcription musicale est difficile et chronophage. Ainsi, les travaux précédents ont privilégié des architectures spécifiques à chaque tâche, adaptées aux instruments individuels de chaque tâche. Dans cette étude, inspirée par les résultats prometteurs du transfert d'apprentissage séquentiel pour le Traitement du Langage Naturel (TLN) à ressources limitées, nous démontrons qu'un modèle Transformer polyvalent peut effectuer une TAM multi-tâches, transcrivant conjointement des combinaisons arbitraires d'instruments musicaux dans plusieurs jeux de données de transcription. Nous montrons que ce cadre d'entraînement unifié permet d'obtenir des résultats de transcription de haute qualité sur une gamme variée de jeux de données, améliorant considérablement les performances pour les instruments à ressources limitées (comme la guitare), tout en maintenant des performances solides pour les instruments abondants (comme le piano). Enfin, en élargissant le champ d'application de la TAM, nous mettons en lumière le besoin d'une évaluation plus cohérente des métriques et d'une meilleure alignement des jeux de données, et nous fournissons une base solide pour cette nouvelle direction de la TAM multi-tâches.

MT3 : Transcription musicale multitâche et multipiste | Articles de recherche récents | HyperAI