HyperAIHyperAI
il y a 2 mois

Une analyse pilotée par les données de la transcription automatique robuste du piano

Drew Edwards; Simon Dixon; Emmanouil Benetos; Akira Maezawa; Yuta Kusaka
Une analyse pilotée par les données de la transcription automatique robuste du piano
Résumé

Les algorithmes de transcription automatique du piano ont connu des améliorations considérables ces dernières années grâce à de nouveaux ensembles de données et techniques de modélisation. Les développements récents se sont principalement concentrés sur l'adaptation de nouvelles architectures de réseaux neuronaux, telles que le Transformer et le Perceiver, afin d'obtenir des systèmes plus précis. Dans cette étude, nous examinons les systèmes de transcription sous l'angle de leurs données d'entraînement. En mesurant leur performance sur des données pianistiques annotées hors distribution, nous démontrons comment ces modèles peuvent surajuster sévèrement aux propriétés acoustiques des données d'entraînement. Nous créons un nouveau jeu d'audio pour le dataset MAESTRO, capturé automatiquement dans un environnement professionnel d'enregistrement studio via la lecture Yamaha Disklavier. En utilisant diverses techniques d'augmentation de données lors de l'entraînement avec les versions originales et rejouées du dataset MAESTRO, nous atteignons une précision d'apparition des notes (note-onset) sans précédent, avec un score F1 de 88,4 % sur le dataset MAPS, sans avoir utilisé aucune de ses données d'entraînement. Nous analysons ensuite ces techniques d'augmentation de données dans une série d'études par élimination (ablation studies) pour mieux comprendre leur influence sur les modèles résultants.

Une analyse pilotée par les données de la transcription automatique robuste du piano | Articles de recherche récents | HyperAI