Hochauflösende Klaviertranskription mit Pedalen durch Regression von Ansetz- und Absetzzeiten

Die automatische Musiktranskription (Automatic Music Transcription, AMT) ist die Aufgabe, Audioaufnahmen in symbolische Darstellungen umzuwandeln. In jüngster Zeit wurden neuronale Netzwerke für AMT eingesetzt und erreichten dabei state-of-the-art-Ergebnisse. Dennoch berücksichtigen viele vorherige Systeme lediglich die Anfangs- und Endzeitpunkte von Noten frameweise, wodurch die Transkriptionsauflösung auf die Frame-Hop-Größe beschränkt ist. Es besteht ein Mangel an Forschung bezüglich verschiedener Strategien zur Kodierung von Anfangs- und Endzeitpunkten als Zielwerte für das Training. Zudem sind bisherige AMT-Systeme empfindlich gegenüber fehlerhaft alignierten Anfangs- und Endzeitpunkten in den Audioaufnahmen. Darüber hinaus gibt es nur wenige Studien zur Transkription des Haltepedals auf großskaligen Datensätzen. In diesem Artikel stellen wir ein hochauflösendes AMT-System vor, das durch die Regression präziser Anfangs- und Endzeitpunkte von Klaviernoten trainiert wird. Zur Inferenz schlagen wir einen Algorithmus vor, der analytisch die präzisen Anfangs- und Endzeitpunkte von Klaviernoten und Pedalevents berechnet. Wir zeigen, dass unser AMT-System robuster gegenüber fehlerhaft alignierten Anfangs- und Endzeitpunkten ist im Vergleich zu früheren Ansätzen. Unser vorgeschlagenes System erreicht auf dem MAESTRO-Datensatz eine Anfangs-F1-Score von 96,72 %, was die vorherigen Ansätze, die auf Anfangs- und Frame-basierter Vorhersage basieren, mit 94,80 % übertrifft. Zudem erzielt unser System einen Pedal-Anfangs-F1-Score von 91,86 %, was die erste Benchmark-Ergebnis auf dem MAESTRO-Datensatz darstellt. Wir haben den Quellcode und die Checkpoints unserer Arbeit unter https://github.com/bytedance/piano_transcription veröffentlicht.