HyperAIHyperAI
vor 2 Monaten

Eine datengetriebene Analyse robuster automatischer Klaviertranskription

Drew Edwards; Simon Dixon; Emmanouil Benetos; Akira Maezawa; Yuta Kusaka
Eine datengetriebene Analyse robuster automatischer Klaviertranskription
Abstract

Algorithmen für die automatische Klaviertranskription haben sich in den letzten Jahren dank neuer Datensätze und Modellierungstechniken erheblich verbessert. Die jüngsten Entwicklungen konzentrieren sich hauptsächlich auf die Anpassung neuer neuronaler Netzarchitekturen, wie zum Beispiel des Transformers und des Perceivers, um genauere Systeme zu erzielen. In dieser Arbeit untersuchen wir Transkriptionssysteme aus der Perspektive ihrer Trainingsdaten. Durch die Messung ihrer Leistung an Piano-Daten, die außerhalb der Verteilung annotiert wurden, zeigen wir, wie diese Modelle stark überanpassen können (overfit) an akustische Eigenschaften der Trainingsdaten. Wir erstellen einen neuen Audio-Satz für den MAESTRO-Datensatz, der automatisch in einem professionellen Studio-Aufnahmearbeitsumfeld durch die Wiedergabe eines Yamaha Disklaviers erfasst wurde. Unter Verwendung verschiedener Datenverstärkungstechniken beim Training mit den ursprünglichen und neu ausgeführten Versionen des MAESTRO-Datensatzes erreichen wir einen Stand-der-Technik-konformen Notenanfangsakkuratheit von 88,4 F1-Wert auf dem MAPS-Datensatz, ohne irgendeine seiner Trainingsdaten gesehen zu haben. Anschließend analysieren wir diese Datenverstärkungstechniken in einer Reihe von Abschätzungstudien (ablation studies), um ihren Einfluss auf die resultierenden Modelle besser zu verstehen.

Eine datengetriebene Analyse robuster automatischer Klaviertranskription | Neueste Forschungsarbeiten | HyperAI