Utilisation d'un Transformers non hiérarchique pour la notation des intervalles temporels dans la transcription automatique de piano

Le cadre de champ aléatoire conditionnel semi-markovien neuronal (neural semi-CRF) a montré un potentiel prometteur pour la transcription pianistique basée sur les événements. Dans ce cadre, tous les événements (notes ou pédales) sont représentés par des intervalles de temps fermés liés à des types d'événements spécifiques. L'approche du neural semi-CRF nécessite une matrice de notation d'intervalle qui attribue un score à chaque intervalle candidat. Cependant, concevoir une architecture efficace et expressive pour noter les intervalles n'est pas trivial. Cet article introduit une méthode simple pour noter les intervalles en utilisant des opérations de produit intérieur échelonné, similaires à la manière dont la notation de l'attention est effectuée dans les transformateurs. Nous démontrons théoriquement que, grâce à la structure particulière issue de l'encodage des intervalles non chevauchants, sous une condition légère, les opérations de produit intérieur sont suffisamment expressives pour représenter une matrice de notation idéale capable de produire le résultat de transcription correct. Nous montrons ensuite qu'un backbone structuré de transformateur uniquement encodeur, fonctionnant uniquement sur une carte de caractéristiques à faible résolution temporelle, est capable de transcrire les notes et pédales du piano avec une grande précision et exactitude temporelle. Les expériences montrent que notre approche atteint la nouvelle performance d'état de l'art sur toutes les sous-tâches en termes de mesure F1 sur le jeu de données Maestro.