BYTECOVER2 : VERS UNE RÉDUCTION DE LA DIMENSIONNALITÉ DE L’EMBEDDING LATENT POUR UNE IDENTIFICATION EFFICACE DE CHANTS COUVRE
Les méthodes basées sur les réseaux de neurones convolutifs (CNN) ont dominé les recherches récentes en identification de chansons couvertes (CSI). Un exemple typique est le système ByteCover que nous avons proposé, qui a atteint des résultats de pointe sur l'ensemble des principaux jeux de données utilisés pour la CSI. Dans cet article, nous proposons une version améliorée de ByteCover, appelée ByteCover2, qui améliore davantage les performances et l'efficacité de ByteCover. Contrairement à la version précédente, ByteCover2 intègre un module supplémentaire, PCA-FC, qui combine les capacités de l'analyse en composantes principales (PCA) et des réseaux de neurones à convolution complète (FC) pour réduire la dimension des embeddings audio. Cette architecture permet à ByteCover2 d'effectuer l'identification de chansons couvertes de manière plus précise et plus efficace. Nous avons évalué ByteCover2 sur plusieurs jeux de données, avec différentes tailles de dimension et différentes configurations d'entraînement, où il a surpassé tous les méthodes comparées, y compris ByteCover, même avec une taille de dimension de 128, soit 15 fois inférieure à celle de ByteCover.