HyperAIHyperAI
vor 17 Tagen

Ein leichtgewichtiges instrumentenunabhängiges Modell für die Polyphonie-Noten-Transkription und Multipitch-Schätzung

Rachel M. Bittner, Juan José Bosch, David Rubinstein, Gabriel Meseguer-Brocal, Sebastian Ewert
Ein leichtgewichtiges instrumentenunabhängiges Modell für die Polyphonie-Noten-Transkription und Multipitch-Schätzung
Abstract

Automatische Musiktranskription (AMT) gilt als eine Schlüsseltechnologie mit einer Vielzahl von Anwendungen. Aufgrund der Komplexität der Aufgabe wurden bisher die besten Ergebnisse typischerweise für Systeme berichtet, die auf spezifische Szenarien ausgerichtet sind; beispielsweise erzielen instrumentenspezifische Systeme in der Regel höhere Genauigkeit als instrumentenunabhängige Ansätze. Ebenso lässt sich eine höhere Genauigkeit erzielen, wenn lediglich frameweise $f_0$-Werte geschätzt und die anspruchsvollere Notenereignisdetektion vernachlässigt wird. Trotz ihrer hohen Genauigkeit können solche spezialisierten Systeme häufig in der Praxis nicht eingesetzt werden. Speicher- und Netzwerkbeschränkungen verbieten die Verwendung mehrerer spezialisierter Modelle, während Speicher- und Laufzeitbeschränkungen die Komplexität der Modelle einschränken. In diesem Artikel stellen wir ein leichtgewichtiges neuronales Netzwerk für die Transkription musikalischer Instrumente vor, das polyphone Ausgaben unterstützt und sich auf eine breite Vielfalt von Instrumenten (einschließlich Gesang) verallgemeinern lässt. Unser Modell wird trainiert, um gleichzeitig frameweise Anschläge, Multipitch-Werte und Notenaktivierungen vorherzusagen, und wir zeigen experimentell, dass diese Mehrfachausgabestruktur die Genauigkeit auf Frame-Ebene verbessert. Trotz seiner Einfachheit erreicht unser System im Benchmark eine deutlich bessere Notenabschätzung im Vergleich zu einer vergleichbaren Baseline, und seine Frame-Ebene-Genauigkeit liegt nur marginal unter den Werten von spezialisierten, state-of-the-art-AMT-Systemen. Mit dieser Arbeit hoffen wir, die Gemeinschaft dazu zu ermuntern, weiterhin Low-Resource- und instrumentenunabhängige AMT-Systeme zu erforschen.