Polyphoner Klaviermusik-Transkriptionssystem, das wechselseitige Korrelationen verschiedener musikalischer Noten-Zustände ausnutzt
{Chang Wook Ahn Man-Je Kim Donghyeon Lee Taehyeon Kim}
Abstract
Allgemein sind Polyphonie-Piano-Musiktranskriptionssysteme darauf ausgelegt, die Tonhöhenaktivitäten sowie verschiedene Notenzustände für jeden Audio-Frame zu schätzen und zu bestimmen. Obwohl solche Transkriptionssysteme in der Musikinformationssuche (Music Information Retrieval, MIR) vielfältige Anwendungen finden, stellt die präzise Vorhersage der verschiedenen Notenzustände aufgrund der komplexen Strukturen der Notenereignisse weiterhin eine herausfordernde Aufgabe dar. Dementsprechend haben sich Ansätze zur Gestaltung neuronaler Netzwerkarchitekturen weiterentwickelt, um die gemeinsame Vorhersage jedes Notenzustands zu erleichtern. Allerdings konnten jüngere Modelle bisher nicht effizient die gegenseitigen Korrelationen zwischen den verschiedenen Notenzuständen ausnutzen. Der zentrale Beitrag unserer Arbeit besteht darin, dass wir die gegenseitigen Korrelationen zwischen den verschiedenen Notenzuständen nachgewiesen und in die Modellarchitektur integriert haben. Dadurch kann das Transkriptionssystem klarere Notenereignisse erkennen und hochwertige Ergebnisse in realen Anwendungsszenarien liefern. Wir schlagen ein Kernel-Teilungs-Feature-Extractor-Modul vor, das diese gegenseitigen Korrelationen im Schritt der Merkmalsextraktion nutzt. Zudem haben wir im Schritt der Notenzustandsdetektion zusätzliche Verbindungen zwischen den notenspezifischen Detektormodulen eingefügt, um das System in die Lage zu versetzen, die Form der Tonhöhenenvelope zu erkennen. Die Wirksamkeit unserer Architektur wurde umfassend in einer Reihe von Experimenten anhand des öffentlich verfügbaren MAESTRO-Datensatzes validiert, der von Google Magenta vorgestellt wurde. Darüber hinaus wurden Ablationsstudien durchgeführt, um die Bedeutung dieser gegenseitigen Korrelationen zu verdeutlichen und den Einfluss sowie die Relevanz des vorgeschlagenen Ansatzes zu belegen.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| music-transcription-on-maestro | Kim et al. | Onset F1: 97.23 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.