Zeitintervalle bewerten mit nicht-hierarchischem Transformer für die automatische Klaviertranskription

Das neuronale semi-Markov Conditional Random Field (semi-CRF)-Framework hat bei der ereignisbasierten Klaviertranskription vielversprechende Ergebnisse gezeigt. In diesem Framework werden alle Ereignisse (Noten oder Pedale) als geschlossene Zeitintervalle dargestellt, die bestimmten Ereignistypen zugeordnet sind. Der neuronale semi-CRF-Ansatz erfordert eine Intervallbewertungsmatrix, die jeder potenziellen Intervall einen Score zuweist. Allerdings ist das Design einer effizienten und ausdrucksstarken Architektur für die Bewertung von Intervallen nicht trivial. In dieser Arbeit stellen wir eine einfache Methode zur Bewertung von Intervallen vor, die skalierte Innenproduktoperationen verwendet, die der Art ähneln, wie Aufmerksamkeitsbewertungen in Transformatoren durchgeführt werden. Wir zeigen theoretisch, dass aufgrund der speziellen Struktur der kodierten nicht überlappenden Intervalle unter einer milden Bedingung die Innenproduktoperationen ausdrucksstark genug sind, um eine ideale Bewertungsmatrix darzustellen, die das korrekte Transkriptergebnis liefern kann. Anschließend demonstrieren wir, dass ein reiner Encoder-basierter strukturierter nicht-hierarchischer Transformer-Rumpf, der nur auf einer Feature-Map mit niedriger zeitlicher Auflösung arbeitet, in der Lage ist, Klaviernoten und -pedale mit hoher Genauigkeit und zeitlicher Präzision zu transkribieren. Die Experimente zeigen, dass unser Ansatz den neuen Stand der Technik in allen Teilaufgaben hinsichtlich des F1-Werts im Maestro-Datensatz erreicht.