HyperAIHyperAI

Command Palette

Search for a command to run...

Ein leichtgewichtiges instrumentenunabhängiges Modell für die Polyphonie-Noten-Transkription und Multipitch-Schätzung

Rachel M. Bittner Juan José Bosch David Rubinstein Gabriel Meseguer-Brocal Sebastian Ewert

Zusammenfassung

Automatische Musiktranskription (AMT) gilt als eine Schlüsseltechnologie mit einer Vielzahl von Anwendungen. Aufgrund der Komplexität der Aufgabe wurden bisher die besten Ergebnisse typischerweise für Systeme berichtet, die auf spezifische Szenarien ausgerichtet sind; beispielsweise erzielen instrumentenspezifische Systeme in der Regel höhere Genauigkeit als instrumentenunabhängige Ansätze. Ebenso lässt sich eine höhere Genauigkeit erzielen, wenn lediglich frameweise f0f_0f0-Werte geschätzt und die anspruchsvollere Notenereignisdetektion vernachlässigt wird. Trotz ihrer hohen Genauigkeit können solche spezialisierten Systeme häufig in der Praxis nicht eingesetzt werden. Speicher- und Netzwerkbeschränkungen verbieten die Verwendung mehrerer spezialisierter Modelle, während Speicher- und Laufzeitbeschränkungen die Komplexität der Modelle einschränken. In diesem Artikel stellen wir ein leichtgewichtiges neuronales Netzwerk für die Transkription musikalischer Instrumente vor, das polyphone Ausgaben unterstützt und sich auf eine breite Vielfalt von Instrumenten (einschließlich Gesang) verallgemeinern lässt. Unser Modell wird trainiert, um gleichzeitig frameweise Anschläge, Multipitch-Werte und Notenaktivierungen vorherzusagen, und wir zeigen experimentell, dass diese Mehrfachausgabestruktur die Genauigkeit auf Frame-Ebene verbessert. Trotz seiner Einfachheit erreicht unser System im Benchmark eine deutlich bessere Notenabschätzung im Vergleich zu einer vergleichbaren Baseline, und seine Frame-Ebene-Genauigkeit liegt nur marginal unter den Werten von spezialisierten, state-of-the-art-AMT-Systemen. Mit dieser Arbeit hoffen wir, die Gemeinschaft dazu zu ermuntern, weiterhin Low-Resource- und instrumentenunabhängige AMT-Systeme zu erforschen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein leichtgewichtiges instrumentenunabhängiges Modell für die Polyphonie-Noten-Transkription und Multipitch-Schätzung | Paper | HyperAI