HyperAIHyperAI

Command Palette

Search for a command to run...

Genaue und skalierbare Versionsidentifikation unter Verwendung musikalisch motivierter Einbettungen

Furkan Yesiler Joan Serra Emilia Gómez

Zusammenfassung

Die Versionserkennung (VI) befasst sich mit der automatischen Identifikation von Aufnahmen, die demselben zugrundeliegenden Musikstück entsprechen. Trotz vieler Bemühungen ist VI weiterhin ein offenes Problem, das viel Raum für Verbesserungen bietet, insbesondere hinsichtlich der Kombination von Genauigkeit und Skalierbarkeit. In dieser Arbeit stellen wir MOVE vor, eine musikalisch motivierte Methode zur genauen und skalierbaren Versionserkennung. MOVE erzielt den Stand der Technik auf zwei öffentlich verfügbaren Benchmark-Datensätzen durch das Lernen skalierbarer Einbettungen in einem euklidischen Abstandraum unter Verwendung eines Triplettenverlusts und einer Strategie zur Auswahl schwieriger Tripletten. Es verbessert frühere Arbeiten durch die Anwendung einer alternativen Eingabedarstellung sowie die Einführung einer neuen Technik zur Zusammenfassung zeitlicher Inhalte, eines standardisierten latenten Raums und einer speziell für VI entwickelten Datenaugmentationsstrategie. Neben den Hauptergebnissen führen wir eine Ablationsstudie durch, um die Bedeutung unserer Designentscheidungen zu unterstreichen, und untersuchen das Verhältnis zwischen Einbettungsdimensionalität und Modellleistung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp