HyperAIHyperAI
il y a 2 mois

CoverHunter : Identification de chansons avec une attention raffinée et des alignements précis

Feng Liu; Deyi Tuo; Yinan Xu; Xintong Han
CoverHunter : Identification de chansons avec une attention raffinée et des alignements précis
Résumé

Résumé : L'identification de reprises musicales (CSI) se concentre sur la détection de la même musique dans différentes versions parmi des références données, à partir d'une piste de requête. Dans cet article, nous proposons un nouveau système nommé CoverHunter qui surmonte les limitations des méthodes de détection existantes en explorant des caractéristiques plus riches grâce à une attention et des alignements affinés. CoverHunter comprend trois modules clés : 1) Une structure de transformateur augmentée par des convolutions (c'est-à-dire un Conformer) qui capture à la fois les interactions locales et globales des caractéristiques, contrairement aux méthodes précédentes principalement basées sur les réseaux neuronaux convolutionnels ; 2) Un module de regroupement temporel basé sur l'attention qui exploite davantage l'attention dans la dimension temporelle ; 3) Un nouveau schéma d'entraînement progressif de grossier à fin qui entraîne d'abord un réseau pour aligner approximativement les segments de chansons, puis affine ce réseau en l'entraînant sur les segments alignés. Nous résumons également quelques techniques d'entraînement importantes utilisées dans notre système, qui contribuent à obtenir de meilleurs résultats. Les expériences menées sur plusieurs jeux de données CSI standards montrent que notre méthode améliore considérablement les performances par rapport aux méthodes les plus avancées actuellement disponibles, avec une taille d'emplacement de 128 (2,3 % sur SHS100K-TEST et 17,7 % sur DaTacos).

CoverHunter : Identification de chansons avec une attention raffinée et des alignements précis | Articles de recherche récents | HyperAI