HyperAIHyperAI

Command Palette

Search for a command to run...

Automatische Klaviertranskription mit hierarchischem Frequenz-Zeit-Transformer

Keisuke Toyama; Taketo Akama; Yukara Ikemiya; Yuhta Takida; Wei-Hsiang Liao; Yuki Mitsufuji

Zusammenfassung

Die Berücksichtigung langfristiger spektraler und zeitlicher Abhängigkeiten ist für die automatische Klaviertranskription entscheidend. Dies ist insbesondere hilfreich bei der genauen Bestimmung des Anfangs- und Endzeitpunkts jeder Note im polyphonen Klaviermaterial. In diesem Fall können wir auf die Fähigkeit des Selbst-Aufmerksamkeitsmechanismus (self-attention mechanism) in Transformers vertrauen, um diese langfristigen Abhängigkeiten in den Frequenz- und Zeitachsen zu erfassen. In dieser Arbeit schlagen wir den hFT-Transformer vor, eine Methode zur automatischen Musiktranskription, die eine zweistufige hierarchische Frequenz-Zeit-Transformer-Architektur verwendet. Die erste Hierarchie umfasst einen Faltungsblock in der Zeitachse, einen Transformer-Encoder in der Frequenzachse und einen Transformer-Decoder, der die Dimension in der Frequenzachse konvertiert. Das Ergebnis wird dann in die zweite Hierarchie eingespeist, die aus einem weiteren Transformer-Encoder in der Zeitachse besteht. Wir haben unsere Methode mit den weit verbreiteten MAPS- und MAESTRO v3.0.0-Datensätzen evaluiert, und sie zeigte erstklassige Leistung bei allen F1-Werten der Metriken für Frame-, Noten-, Noten mit Offset- und Noten mit Offset und Geschwindigkeitsschätzungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp