il y a 2 mois

Amélioration des modèles de musique polyphonique avec une encodage riche en caractéristiques

Omar Peracha

Résumé

Ce papier explore la modélisation séquentielle de la musique polyphonique à l'aide de réseaux neuronaux profonds. Bien que les récentes avancées se soient concentrées sur l'architecture des réseaux, nous démontrons que la représentation de la séquence peut apporter une contribution tout aussi significative à la performance du modèle, mesurée par la perte sur l'ensemble de validation. En extrayant les caractéristiques pertinentes inhérentes au jeu de données d'entraînement, le modèle peut être conditionné par ces caractéristiques ou formé pour prédire ces caractéristiques en tant que composantes supplémentaires des séquences modélisées. Nous montrons qu'entraîner un réseau neuronal pour prédire une séquence apparemment plus complexe, incluant des caractéristiques supplémentaires dans la série modélisée, peut améliorer considérablement la performance globale du modèle. Nous présentons d'abord TonicNet, un modèle basé sur les unités de récurrence à porte (GRU) formé pour prédire initialement l'accord à un temps donné avant de prédire les notes de chaque voix à ce même temps, contrairement à l'approche classique qui ne prédit que les notes. Nous évaluons ensuite TonicNet sur le jeu de données canonique des Chorals de J.S. Bach et obtenons des résultats d'état de l'art.