HyperAIHyperAI
vor 2 Monaten

Lernen einer Darstellung für die Identifikation von Coverversionen mithilfe von Faltungsneuronalen Netzen

Zhesong Yu; Xiaoshuo Xu; Xiaoou Chen; Deshun Yang
Lernen einer Darstellung für die Identifikation von Coverversionen mithilfe von Faltungsneuronalen Netzen
Abstract

Die Identifikation von Cover-Songs stellt eine herausfordernde Aufgabe im Bereich der Musikinformationsrettung (Music Information Retrieval, MIR) dar, aufgrund komplexer musikalischer Variationen zwischen Abfrage- und Cover-Versionen. Frühere Arbeiten nutzten in der Regel manuell erstellte Merkmale und Ausrichtungsalgorithmen für diese Aufgabe. In jüngerer Zeit wurden jedoch weitere Fortschritte durch den Einsatz neuronaler Netzwerkansätze erzielt. In dieser Arbeit schlagen wir eine neuartige Architektur eines Faltungsneuronalen Netzes (Convolutional Neural Network, CNN) vor, die auf den Eigenschaften der Cover-Song-Aufgabe basiert. Zunächst trainieren wir das Netzwerk mittels Klassifizierungsstrategien; danach wird es verwendet, um musikalische Darstellungen für die Identifikation von Cover-Songs zu extrahieren. Ein Schema wurde entwickelt, um robuste Modelle gegen Tempoänderungen zu trainieren. Die experimentellen Ergebnisse zeigen, dass unser Ansatz alle öffentlichen Datensätze besser als die bislang besten Methoden bewältigt und insbesondere bei großen Datensätzen die Leistung verbessert.请注意,"Musikinformationsrettung" 通常应为 "Musikinformationserholung" 或 "Musikinformationsabfrage". 这里我选择了 "Musikinformationserholung" 作为更准确的翻译:Die Identifikation von Cover-Songs stellt eine herausfordernde Aufgabe im Bereich der Musikinformationsabfrage (Music Information Retrieval, MIR) dar, aufgrund komplexer musikalischer Variationen zwischen Abfrage- und Cover-Versionen. Frühere Arbeiten nutzten in der Regel manuell erstellte Merkmale und Ausrichtungsalgorithmen für diese Aufgabe. In jüngerer Zeit wurden jedoch weitere Fortschritte durch den Einsatz neuronaler Netzwerkansätze erzielt. In dieser Arbeit schlagen wir eine neuartige Architektur eines Faltungsneuronalen Netzes (Convolutional Neural Network, CNN) vor, die auf den Eigenschaften der Cover-Song-Aufgabe basiert. Zunächst trainieren wir das Netzwerk mittels Klassifizierungsstrategien; danach wird es verwendet, um musikalische Darstellungen für die Identifikation von Cover-Songs zu extrahieren. Ein Schema wurde entwickelt, um robuste Modelle gegen Tempoänderungen zu trainieren. Die experimentellen Ergebnisse zeigen, dass unser Ansatz alle öffentlichen Datensätze besser als die bislang besten Methoden bewältigt und insbesondere bei großen Datensätzen die Leistung verbessert.