Genaue und skalierbare Versionsidentifikation unter Verwendung musikalisch motivierter Einbettungen

Die Versionserkennung (VI) befasst sich mit der automatischen Identifikation von Aufnahmen, die demselben zugrundeliegenden Musikstück entsprechen. Trotz vieler Bemühungen ist VI weiterhin ein offenes Problem, das viel Raum für Verbesserungen bietet, insbesondere hinsichtlich der Kombination von Genauigkeit und Skalierbarkeit. In dieser Arbeit stellen wir MOVE vor, eine musikalisch motivierte Methode zur genauen und skalierbaren Versionserkennung. MOVE erzielt den Stand der Technik auf zwei öffentlich verfügbaren Benchmark-Datensätzen durch das Lernen skalierbarer Einbettungen in einem euklidischen Abstandraum unter Verwendung eines Triplettenverlusts und einer Strategie zur Auswahl schwieriger Tripletten. Es verbessert frühere Arbeiten durch die Anwendung einer alternativen Eingabedarstellung sowie die Einführung einer neuen Technik zur Zusammenfassung zeitlicher Inhalte, eines standardisierten latenten Raums und einer speziell für VI entwickelten Datenaugmentationsstrategie. Neben den Hauptergebnissen führen wir eine Ablationsstudie durch, um die Bedeutung unserer Designentscheidungen zu unterstreichen, und untersuchen das Verhältnis zwischen Einbettungsdimensionalität und Modellleistung.