APPRENTISSAGE DE LA SIMILARITÉ POUR L'IDENTIFICATION DE CHANSONS COUVERTES À L'AIDE DE MATRICES DE SIMILARITÉ CROISÉES DE SÉQUENCES PROFONDES MULTI-NIVEAUX
Ces dernières années, plusieurs modèles d’apprentissage profond ont été proposés pour l’identification de chansons couvertes, et ont été conçus pour apprendre des vecteurs de caractéristiques de longueur fixe à partir des pistes musicales. Toutefois, l’évolution temporelle de la musique – un aspect crucial pour mesurer la similarité mélodique entre deux pistes – n’est pas adéquatement représenté par des vecteurs de longueur fixe. Dans cet article, nous proposons une nouvelle architecture de réseau siamois pour l’apprentissage métrique de la similarité mélodique en musique. Cette architecture se compose de deux parties : la première est un réseau chargé d’apprendre une représentation séquentielle profonde des pistes musicales, tandis que la seconde est un réseau d’estimation de similarité qui prend en entrée des matrices de similarité croisée calculées à partir des séquences profondes de deux pistes. Les deux réseaux sont entraînés et optimisés conjointement afin d’atteindre une haute précision dans la prédiction de similarité mélodique. Des expériences menées sur plusieurs jeux de données publics démontrent l’efficacité supérieure de l’architecture proposée.