HyperAIHyperAI
vor 17 Tagen

Vorbeigehen auf der Frame-Ebene: ereignisbasierte Klaviernotation mit neuronalen Semi-CRFs

{Zhiyao Duan, Frank Cwitkowitz, Yujia Yan}
Vorbeigehen auf der Frame-Ebene: ereignisbasierte Klaviernotation mit neuronalen Semi-CRFs
Abstract

Pianotranskriptionsysteme sind typischerweise darauf optimiert, die Tonhöhenaktivität in jedem Audioframe zu schätzen. Sie werden häufig durch sorgfältig entworfene Heuristiken und Nachbearbeitungsalgorithmen ergänzt, um aus den framebasierten Vorhersagen Notenereignisse abzuleiten. In jüngeren Ansätzen wurde Piano-Transkription zudem als ein Mehraufgaben-Lernproblem formuliert, bei dem die Aktivierung verschiedener Phasen eines Notenereignisses unabhängig voneinander geschätzt wird. Diese Vorgehensweisen sind jedoch nicht gut mit dem gewünschten Ergebnis der Aufgabe vereinbar, das darin besteht, Notenintervalle als ganzheitliche Ereignisse zu spezifizieren, anstatt disjunkte Beobachtungen zu aggregieren. In dieser Arbeit schlagen wir eine neuartige Formulierung der Piano-Transkription vor, die direkt auf die Vorhersage von Notenereignissen optimiert ist. Unser Ansatz basiert auf semi-Markov-Conditional-Random-Fields (semi-CRF), die Scores für Intervalle – statt für einzelne Frames – generieren. Durch diese Formulierung entfällt die Notwendigkeit, auf disjunkte framebasierte Schätzungen für verschiedene Phasen eines Notenereignisses zurückzugreifen. Wir führen Experimente auf dem MAESTRO-Datensatz durch und zeigen, dass das vorgeschlagene Modell die derzeitige State-of-the-Art für Piano-Transkription übertreffen kann. Unsere Ergebnisse deuten darauf hin, dass die semi-CRF-Ausgabeschicht, obwohl sie weiterhin quadratische Komplexität aufweist, eine einfache, schnelle und leistungsfähige Lösung für ereignisbasierte Vorhersagen darstellt und möglicherweise auch in anderen Bereichen, die derzeit auf framebasierte Schätzungen angewiesen sind, ähnlichen Erfolg erzielen kann.