ByteCover3: Genauige Deckversionserkennung bei kurzen Abfragen

Methoden auf der Basis des Deep Learnings sind in den letzten Jahren zu einem Paradigma für die Identifikation von Cover-Songs (CSI) geworden, wobei die ByteCover-Systeme auf allen wichtigen CSI-Datensätzen erstklassige Ergebnisse erzielt haben. Allerdings hat sich mit dem Aufkommen kurzer Videos viele Anwendungen in der Praxis der Anforderung unterzogen, kurze Musikausschnitte mit vollständigen Musiktiteln in einer Datenbank abzugleichen. Dieses Problem ist noch wenig erforscht und wartet auf eine lösungsorientierte industrielle Umsetzung. In dieser Arbeit aktualisieren wir das vorherige ByteCover-System zu ByteCover3, das lokale Merkmale nutzt, um die Identifikationsleistung bei kurzen Musikabfragen weiter zu verbessern. ByteCover3 wurde mit einem Modul zur lokalen Ausrichtungsverlustfunktion (Local Alignment Loss, LAL) und einer zweistufigen Merkmalsretrieval-Pipeline konzipiert, was es dem System ermöglicht, CSI genauer und effizienter durchzuführen. Wir haben ByteCover3 unter verschiedenen Benchmark-Einstellungen auf mehreren Datensätzen evaluiert, wo es alle verglichenen Methoden einschließlich früherer Versionen übertraf.