ByteCover : Identification de chansons similaires par entraînement multi-perte

Dans cet article, nous présentons ByteCover, une nouvelle méthode d'apprentissage de caractéristiques pour l'identification des reprises (CSI). ByteCover est basé sur le modèle classique ResNet, et deux améliorations majeures ont été conçues pour renforcer davantage les capacités du modèle en matière de CSI. Dans la première amélioration, nous introduisons l'intégration de la normalisation par instance (IN) et de la normalisation par lot (BN) pour construire des blocs IBN, qui constituent les composants principaux de notre modèle ResNet-IBN. Grâce aux blocs IBN, notre modèle CSI peut apprendre des caractéristiques invariantes aux changements des attributs musicaux tels que la tonalité, le tempo, le timbre et le genre, tout en préservant les informations sur la version. Dans la deuxième amélioration, nous utilisons la méthode BNNeck pour permettre un entraînement à perte multiple et encourager notre méthode à optimiser conjointement une perte de classification et une perte triplet. Par ce biais, la discrimination inter-classe et la compacité intra-classe des reprises peuvent être assurées simultanément. Un ensemble d'expériences a démontré l'efficacité et l'efficience de ByteCover sur plusieurs jeux de données, et dans le jeu de données Da-TACOS, ByteCover a surpassé le meilleur système concurrentiel avec une performance supérieure de 20,9 %.