HyperAIHyperAI
vor 17 Tagen

Hochauflösende Klaviertranskription mit Pedalen durch Regression von Ansetz- und Absetzzeiten

Qiuqiang Kong, Bochen Li, Xuchen Song, Yuan Wan, Yuxuan Wang
Hochauflösende Klaviertranskription mit Pedalen durch Regression von Ansetz- und Absetzzeiten
Abstract

Die automatische Musiktranskription (Automatic Music Transcription, AMT) ist die Aufgabe, Audioaufnahmen in symbolische Darstellungen umzuwandeln. In jüngster Zeit wurden neuronale Netzwerke für AMT eingesetzt und erreichten dabei state-of-the-art-Ergebnisse. Dennoch berücksichtigen viele vorherige Systeme lediglich die Anfangs- und Endzeitpunkte von Noten frameweise, wodurch die Transkriptionsauflösung auf die Frame-Hop-Größe beschränkt ist. Es besteht ein Mangel an Forschung bezüglich verschiedener Strategien zur Kodierung von Anfangs- und Endzeitpunkten als Zielwerte für das Training. Zudem sind bisherige AMT-Systeme empfindlich gegenüber fehlerhaft alignierten Anfangs- und Endzeitpunkten in den Audioaufnahmen. Darüber hinaus gibt es nur wenige Studien zur Transkription des Haltepedals auf großskaligen Datensätzen. In diesem Artikel stellen wir ein hochauflösendes AMT-System vor, das durch die Regression präziser Anfangs- und Endzeitpunkte von Klaviernoten trainiert wird. Zur Inferenz schlagen wir einen Algorithmus vor, der analytisch die präzisen Anfangs- und Endzeitpunkte von Klaviernoten und Pedalevents berechnet. Wir zeigen, dass unser AMT-System robuster gegenüber fehlerhaft alignierten Anfangs- und Endzeitpunkten ist im Vergleich zu früheren Ansätzen. Unser vorgeschlagenes System erreicht auf dem MAESTRO-Datensatz eine Anfangs-F1-Score von 96,72 %, was die vorherigen Ansätze, die auf Anfangs- und Frame-basierter Vorhersage basieren, mit 94,80 % übertrifft. Zudem erzielt unser System einen Pedal-Anfangs-F1-Score von 91,86 %, was die erste Benchmark-Ergebnis auf dem MAESTRO-Datensatz darstellt. Wir haben den Quellcode und die Checkpoints unserer Arbeit unter https://github.com/bytedance/piano_transcription veröffentlicht.