Command Palette
Search for a command to run...
MT3: Mehrfach-Aufgaben Mehrspur-Musiktranskription
MT3: Mehrfach-Aufgaben Mehrspur-Musiktranskription
Josh Gardner Ian Simon Ethan Manilow Curtis Hawthorne Jesse Engel
Zusammenfassung
Automatische Musiktranskription (AMT), die Inferenz von Noten aus Rohaudio, ist eine anspruchsvolle Aufgabe im Zentrum der Musikauswertung. Im Gegensatz zur automatischen Spracherkennung (ASR), die sich in der Regel auf die Worte eines einzelnen Sprechers konzentriert, erfordert AMT häufig das gleichzeitige Transkribieren mehrerer Instrumente, wobei fein skalierte Tonhöhen- und Timinginformationen erhalten bleiben müssen. Darüber hinaus sind viele AMT-Datensätze „ressourcenarm“, da sogar Expertenmusiker die Transkription von Musik schwierig und zeitaufwendig finden. Daher haben frühere Arbeiten sich auf taskspezifische Architekturen konzentriert, die für die jeweiligen Instrumente jeder Aufgabe angepasst wurden. In dieser Arbeit, inspiriert durch die vielversprechenden Ergebnisse des sequenzbasierten Transferlearnings für ressourcenarme Natürliche Sprachverarbeitung (NLP), zeigen wir, dass ein allgemeiner Transformer-Modell den Multi-Task-AMT durchführen kann, indem es beliebige Kombinationen von Musikinstrumenten über mehrere Transkriptionsdatensätze hinweg gemeinsam transkribiert. Wir demonstrieren, dass dieses einheitliche Trainingsframework hochwertige Transkriptionsergebnisse über einen breiten Spektrum an Datensätzen erzielt, die Leistung für ressourcenarme Instrumente (wie Gitarre) dramatisch verbessert und gleichzeitig starke Leistungen für reichhaltige Instrumente (wie Klavier) beibehält. Schließlich erweitern wir den Umfang der AMT und legen damit das Bedürfnis nach konsistenten Evaluationsmetriken und besserer Datensatzausrichtung frei, und wir stellen eine starke Baseline für diese neue Richtung des Multi-Task-AMT bereit.