Automatische Klaviertranskription mit hierarchischem Frequenz-Zeit-Transformer

Die Berücksichtigung langfristiger spektraler und zeitlicher Abhängigkeiten ist für die automatische Klaviertranskription entscheidend. Dies ist insbesondere hilfreich bei der genauen Bestimmung des Anfangs- und Endzeitpunkts jeder Note im polyphonen Klaviermaterial. In diesem Fall können wir auf die Fähigkeit des Selbst-Aufmerksamkeitsmechanismus (self-attention mechanism) in Transformers vertrauen, um diese langfristigen Abhängigkeiten in den Frequenz- und Zeitachsen zu erfassen. In dieser Arbeit schlagen wir den hFT-Transformer vor, eine Methode zur automatischen Musiktranskription, die eine zweistufige hierarchische Frequenz-Zeit-Transformer-Architektur verwendet. Die erste Hierarchie umfasst einen Faltungsblock in der Zeitachse, einen Transformer-Encoder in der Frequenzachse und einen Transformer-Decoder, der die Dimension in der Frequenzachse konvertiert. Das Ergebnis wird dann in die zweite Hierarchie eingespeist, die aus einem weiteren Transformer-Encoder in der Zeitachse besteht. Wir haben unsere Methode mit den weit verbreiteten MAPS- und MAESTRO v3.0.0-Datensätzen evaluiert, und sie zeigte erstklassige Leistung bei allen F1-Werten der Metriken für Frame-, Noten-, Noten mit Offset- und Noten mit Offset und Geschwindigkeitsschätzungen.