ByteCover: Cover-Song-Identifikation durch Multi-Verlust-Training

In dieser Arbeit stellen wir ByteCover vor, eine neue Merkmalslernmethode für die Identifikation von Cover-Songs (CSI). ByteCover basiert auf dem klassischen ResNet-Modell, und zwei wesentliche Verbesserungen wurden entwickelt, um die Fähigkeiten des Modells für CSI weiter zu steigern. Bei der ersten Verbesserung führen wir die Integration von Instanznormalisierung (IN) und Batches-Normalisierung (BN) ein, um IBN-Blöcke zu bilden, welche die Hauptkomponenten unseres ResNet-IBN-Modells darstellen. Mit Hilfe der IBN-Blöcke kann unser CSI-Modell Merkmale lernen, die invariant gegenüber Veränderungen musikalischer Attribute wie Tonart, Tempo, Klangfarbe und Genre sind, während es gleichzeitig die Versionsinformationen beibehält. Bei der zweiten Verbesserung verwenden wir die BNNeck-Methode, um ein Mehrfachverlusttraining zu ermöglichen und unsere Methode dazu anzuregen, sowohl einen Klassifizierungsverlust als auch einen Triplettenverlust gemeinsam zu optimieren. Auf diese Weise können sowohl die Unterscheidbarkeit zwischen verschiedenen Klassen als auch die Kohärenz innerhalb derselben Klasse von Cover-Songs gleichzeitig gewährleistet werden. Eine Reihe von Experimenten zeigte die Effektivität und Effizienz von ByteCover auf mehreren Datensätzen. Im Da-TACOS-Datensatz übertraf ByteCover das beste wettbewerbsfähige System um 20,9 %.