WideResNet avec apprentissage conjoint de représentation et augmentation de données pour l’identification de chansons couvertes

L’identification de reprises musicales (Cover Song Identification, CSI) constitue une tâche difficile et un sujet d’importance majeure au sein de la communauté du traitement de l’information musicale (Music Information Retrieval, MIR). Ces dernières années, les problèmes de CSI ont été largement étudiés à l’aide de méthodes fondées sur l’apprentissage profond. Dans cet article, nous proposons un cadre novateur pour la CSI basé sur une méthode d’apprentissage de représentations conjointes inspirée de l’apprentissage multi-tâches. Plus précisément, nous introduisons une stratégie d’apprentissage conjoint qui combine la classification et l’apprentissage métrique afin d’optimiser un modèle de reprise musical fondé sur WideResNet, nommé LyraC-Net. L’objectif de classification permet d’apprendre des représentations séparables issues de différentes classes, tandis que l’apprentissage métrique améliore la similarité des représentations en réduisant les distances inter-classes et en augmentant la séparabilité intra-classes. Cette stratégie d’optimisation conjointe vise à apprendre une représentation de reprise plus robuste que les méthodes reposant sur une seule fonction d’objectif d’apprentissage. Pour l’apprentissage métrique, nous introduisons le réseau prototypique afin de stabiliser et accélérer le processus d’entraînement, en combinaison avec la perte triplet. En outre, nous intégrons SpecAugment, une méthode d’augmentation populaire dans le domaine de la reconnaissance vocale, afin d’améliorer davantage les performances. Les résultats expérimentaux montrent que la méthode proposée obtient des résultats prometteurs et dépasse les autres approches récentes de CSI dans les évaluations.