HyperAIHyperAI
vor 2 Monaten

ByteCover3: Genauige Deckversionserkennung bei kurzen Abfragen

Xingjian Du; Zijie Wang; Xia Liang; Huidong Liang; Bilei Zhu; Zejun Ma
ByteCover3: Genauige Deckversionserkennung bei kurzen Abfragen
Abstract

Methoden auf der Basis des Deep Learnings sind in den letzten Jahren zu einem Paradigma für die Identifikation von Cover-Songs (CSI) geworden, wobei die ByteCover-Systeme auf allen wichtigen CSI-Datensätzen erstklassige Ergebnisse erzielt haben. Allerdings hat sich mit dem Aufkommen kurzer Videos viele Anwendungen in der Praxis der Anforderung unterzogen, kurze Musikausschnitte mit vollständigen Musiktiteln in einer Datenbank abzugleichen. Dieses Problem ist noch wenig erforscht und wartet auf eine lösungsorientierte industrielle Umsetzung. In dieser Arbeit aktualisieren wir das vorherige ByteCover-System zu ByteCover3, das lokale Merkmale nutzt, um die Identifikationsleistung bei kurzen Musikabfragen weiter zu verbessern. ByteCover3 wurde mit einem Modul zur lokalen Ausrichtungsverlustfunktion (Local Alignment Loss, LAL) und einer zweistufigen Merkmalsretrieval-Pipeline konzipiert, was es dem System ermöglicht, CSI genauer und effizienter durchzuführen. Wir haben ByteCover3 unter verschiedenen Benchmark-Einstellungen auf mehreren Datensätzen evaluiert, wo es alle verglichenen Methoden einschließlich früherer Versionen übertraf.