Jointist : Apprentissage conjoint pour la transcription multi-instrumentale et ses applications

Dans cet article, nous présentons Jointist, un cadre multi-instruments sensible aux instruments, capable de transcrire, reconnaître et séparer plusieurs instruments musicaux à partir d'un extrait audio. Jointist comprend un module de reconnaissance des instruments qui conditionne les autres modules : un module de transcription qui génère des rouleaux de piano spécifiques à chaque instrument, et un module de séparation des sources qui utilise les informations sur les instruments et les résultats de la transcription.La conditionnalité par les instruments est conçue pour une fonctionnalité multi-instruments explicite, tandis que la connexion entre le module de transcription et le module de séparation des sources vise à améliorer les performances de la transcription. Notre formulation du problème est ambitieuse, ce qui rend le modèle particulièrement utile dans le monde réel, étant donné que la musique populaire moderne est généralement composée de plusieurs instruments. Cependant, son originalité nécessite une nouvelle approche pour évaluer ce type de modèle. Au cours des expérimentations, nous évaluons le modèle sous différents angles, offrant ainsi une nouvelle perspective d'évaluation pour la transcription multi-instruments. Nous soutenons également que les modèles de transcription peuvent être utilisés comme module prétraitement pour d'autres tâches d'analyse musicale. Dans l'expérimentation sur plusieurs tâches en aval, la représentation symbolique fournie par notre modèle de transcription s'est avérée utile pour résoudre la détection des temps forts (downbeat), la reconnaissance des accords et l'estimation de la tonalité.