Transcription automatique de piano avec transformateur hiérarchique fréquence-temps

Prendre en compte les dépendances spectrales et temporelles à long terme est essentiel pour la transcription automatique du piano. Cela est particulièrement utile pour déterminer l'heure exacte de début et de fin de chaque note dans le contenu polyphonique du piano. Dans ce contexte, nous pouvons nous appuyer sur la capacité du mécanisme d'auto-attention des Transformers à capturer ces dépendances à long terme sur les axes de fréquence et de temps. Dans cette étude, nous proposons hFT-Transformer, une méthode de transcription musicale automatique qui utilise une architecture Transformer hiérarchique à deux niveaux en fréquence-temps. Le premier niveau comprend un bloc convolutif sur l'axe temporel, un encodeur Transformer sur l'axe de fréquence, et un décodeur Transformer qui convertit la dimension sur l'axe de fréquence. La sortie est ensuite alimentée au deuxième niveau, qui consiste en un autre encodeur Transformer sur l'axe temporel. Nous avons évalué notre méthode avec les jeux de données largement utilisés MAPS et MAESTRO v3.0.0, et elle a montré des performances d'état de l'art pour tous les scores F1 des métriques parmi les estimations par trame (Frame), par note (Note), par note avec fin (Note with Offset) et par note avec fin et vélocité (Note with Offset and Velocity).