Apprentissage d'une représentation pour l'identification de reprises à l'aide d'un réseau neuronal convolutif

L'identification des reprises musicales représente une tâche ardue dans le domaine de la Retrait d'Information Musicale (RIM) en raison des variations musicales complexes entre les pistes de requête et les versions de reprise. Les travaux précédents utilisaient généralement des caractéristiques conçues manuellement et des algorithmes d'alignement pour cette tâche. Plus récemment, des progrès supplémentaires ont été réalisés grâce à l'utilisation d'approches basées sur les réseaux neuronaux. Dans cet article, nous proposons une nouvelle architecture de Réseau Neuronal Convolutif (RNC) fondée sur les caractéristiques spécifiques de la tâche d'identification des reprises. Nous commençons par entraîner le réseau à travers des stratégies de classification ; le réseau est ensuite utilisé pour extraire la représentation musicale nécessaire à l'identification des reprises. Un schéma a été conçu pour former des modèles robustes face aux changements de tempo. Les résultats expérimentaux montrent que notre approche surpassent les méthodes actuelles sur tous les jeux de données publics, améliorant particulièrement les performances sur le grand jeu de données.