YourMT3+: Transcription musicale multi-instrument avec des architectures de Transformers améliorées et une augmentation de tiges inter-jeux de données

La transcription musicale multi-instrument vise à convertir des enregistrements musicaux polyphoniques en partitions attribuées à chaque instrument. Cette tâche est particulièrement complexe pour les modèles car elle nécessite d'identifier simultanément plusieurs instruments et de transcrire leur hauteur et leur timing précis, ce qui est rendu encore plus difficile par le manque de données entièrement annotées. Cet article présente YourMT3+, une suite de modèles pour une transcription musicale multi-instrument améliorée basée sur l'approche récente de décodage de jetons linguistiques de MT3. Nous renforçons son encodeur en adoptant un transformateur à attention hiérarchique dans le domaine temps-fréquence et en intégrant un mélange d'experts. Pour remédier aux limitations des données, nous introduisons une nouvelle méthode de décodage multicanal permettant la formation avec des annotations incomplètes et proposons des techniques d'augmentation intra- et inter-pistes pour le mélange de jeux de données. Nos expériences montrent des capacités directes de transcription vocale, éliminant ainsi la nécessité de pré-processeurs de séparation vocale. Les benchmarks effectués sur dix jeux de données publics démontrent la compétitivité ou la supériorité de nos modèles par rapport aux modèles existants. Des tests supplémentaires sur des enregistrements de musique pop mettent en lumière les limites des modèles actuels. Le code source entièrement reproductible et les jeux de données sont disponibles avec des démonstrations sur \url{https://github.com/mimbres/YourMT3}.