HyperAIHyperAI
vor 8 Tagen

BYTECOVER2: ZU EINER DIMENSIONALITÄTSREDUKTION DER LATENTEN EMBEDDINGS FÜR EFFIZIENTE COVER-SONG-IDENTIFIKATION

{Zejun Ma, Bilei Zhu, Zijie Wang, Ke Chen, Xingjian Du}
Abstract

Verfahren basierend auf Faltungsneuralen Netzen (CNN) haben in der jüngsten Forschung zum Identifizierung von Cover-Songs (Cover Song Identification, CSI) dominiert. Ein typisches Beispiel hierfür ist das von uns vorgeschlagene ByteCover-System, das auf allen gängigen CSI-Datensätzen Ergebnisse auf State-of-the-Art-Niveau erzielt hat. In diesem Artikel präsentieren wir eine verbesserte Version von ByteCover, die als ByteCover2 bezeichnet wird und sowohl die Erkennungsleistung als auch die Effizienz von ByteCover weiter steigert. Im Vergleich zu ByteCover ist ByteCover2 mit einem zusätzlichen PCA-FC-Modul ausgestattet, das die Fähigkeiten der Hauptkomponentenanalyse (PCA) und vollständig verbundener (FC) Neuronalen Netze zur Dimensionsreduktion von Audio-Embeddings integriert. Dadurch ermöglicht ByteCover2 eine präzisere und effizientere CSI. Wir haben ByteCover2 an mehreren Datensätzen unterschiedlicher Dimensionen und Trainingskonfigurationen evaluiert, wobei ByteCover2 alle verglichenen Methoden, einschließlich ByteCover, übertraf – selbst bei einer Dimension von nur 128, was 15-mal geringer ist als die Dimension von ByteCover.