HyperAIHyperAI

Command Palette

Search for a command to run...

MT3 : Transcription musicale multitâche et multipiste

Josh Gardner Ian Simon Ethan Manilow Curtis Hawthorne Jesse Engel

Résumé

La Transcription Automatique de la Musique (TAM), qui consiste à inférer les notes musicales à partir d'un signal audio brut, est une tâche complexe au cœur de la compréhension musicale. Contrairement à la Reconnaissance Automatique de la Parole (RAP), qui se concentre généralement sur les mots d'un seul locuteur, la TAM nécessite souvent de transcrire simultanément plusieurs instruments, tout en préservant des informations précises sur l'intonation et le rythme. De plus, de nombreux jeux de données pour la TAM sont « à ressources limitées », car même les musiciens expérimentés trouvent que la transcription musicale est difficile et chronophage. Ainsi, les travaux précédents ont privilégié des architectures spécifiques à chaque tâche, adaptées aux instruments individuels de chaque tâche. Dans cette étude, inspirée par les résultats prometteurs du transfert d'apprentissage séquentiel pour le Traitement du Langage Naturel (TLN) à ressources limitées, nous démontrons qu'un modèle Transformer polyvalent peut effectuer une TAM multi-tâches, transcrivant conjointement des combinaisons arbitraires d'instruments musicaux dans plusieurs jeux de données de transcription. Nous montrons que ce cadre d'entraînement unifié permet d'obtenir des résultats de transcription de haute qualité sur une gamme variée de jeux de données, améliorant considérablement les performances pour les instruments à ressources limitées (comme la guitare), tout en maintenant des performances solides pour les instruments abondants (comme le piano). Enfin, en élargissant le champ d'application de la TAM, nous mettons en lumière le besoin d'une évaluation plus cohérente des métriques et d'une meilleure alignement des jeux de données, et nous fournissons une base solide pour cette nouvelle direction de la TAM multi-tâches.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp