CoverHunter: Cover-Song-Identifikation mit verfeinerten Aufmerksamkeitsmechanismen und Anpassungen

Zusammenfassung: Die Identifikation von Cover-Songs (CSI) konzentriert sich darauf, dieselbe Musik in verschiedenen Versionen in Referenzankerpunkten bei gegebener Abfrage zu finden. In dieser Arbeit schlagen wir ein neues System namens CoverHunter vor, das die Nachteile bestehender Erkennungsverfahren überwindet, indem es reichere Merkmale mit verfeinerter Aufmerksamkeit und Ausrichtung untersucht. CoverHunter besteht aus drei zentralen Modulen: 1) Einer konvolutionserweiterten Transformer-Struktur (d.h., Conformer), die sowohl lokale als auch globale Merkmalsinteraktionen erfasst, im Gegensatz zu früheren Methoden, die hauptsächlich auf Faltungsneuronnetzen basieren; 2) Einem aufmerksamkeitsbasierten Zeitpooling-Modul, das die Aufmerksamkeit in der Zeitdimension weiter ausnutzt; 3) Einem neuen Trainingsschema von grob zu fein, das zunächst ein Netzwerk trainiert, um die Songabschnitte grob auszurichten, und dann das Netzwerk durch Training auf den ausgerichteten Abschnitten verfeinert. Gleichzeitig fassen wir einige wichtige Trainingsmethoden zusammen, die in unserem System verwendet werden und dazu beitragen, bessere Ergebnisse zu erzielen. Experimente auf mehreren standardisierten CSI-Datensätzen zeigen, dass unsere Methode bei einer Einbettungsgröße von 128 signifikant besser ist als state-of-the-art-Methoden (um 2,3 % auf SHS100K-TEST und um 17,7 % auf DaTacos).