Jointist: Gemeinsames Lernen für die Mehrinstrumenten-Transkription und ihre Anwendungen

In dieser Arbeit stellen wir Jointist vor, ein instrumentbewusstes Mehrinstrumenten-Framework, das in der Lage ist, mehrere Musikinstrumente aus einem Audioschnipsel zu transkribieren, zu erkennen und zu trennen. Jointist besteht aus dem Instrumentenerkennungsmodul, das die anderen Module steuert: dem Transkriptionsmodul, das instruktionspezifische Klavierrollen ausgibt, und dem Quellentrennungsmodul, das Instrumenteninformationen und Transkriptionsergebnisse nutzt.Die Instrumentensteuerung ist so konzipiert, dass sie eine explizite Mehrinstrumenten-Funktionalität ermöglicht, während die Verbindung zwischen den Transkriptions- und Quellentrennungsmodulen auf eine verbesserte Transkription abzielt. Unsere anspruchsvolle Problemformulierung macht das Modell in der realen Welt hoch nützlich, da moderne Populärmusik in der Regel aus mehreren Instrumenten besteht. Allerdings erfordert seine Neuheit einen neuen Ansatz zur Bewertung solcher Modelle. Im Experiment bewerten wir das Modell unter verschiedenen Aspekten und bieten damit einen neuen Evaluationsansatz für die Mehrinstrumententranskription. Wir argumentieren auch dafür, dass Transkriptionsmodelle als Vorverarbeitungsmodul für andere Musikanalyseaufgaben eingesetzt werden können. In den Experimenten zu mehreren nachgelagerten Aufgaben zeigte sich, dass die symbolische Darstellung unseres Transkriptionsmodells hilfreich für Spektrogramme bei der Lösung von Downbeat-Erkennung (Downbeat detection), Akkorderkennung (Chord recognition) und Tonartbestimmung (Key estimation) war.