HyperAIHyperAI
il y a 2 mois

Wave-U-Net : Un réseau neuronal multi-échelle pour la séparation de sources audio de bout en bout

Daniel Stoller; Sebastian Ewert; Simon Dixon
Wave-U-Net : Un réseau neuronal multi-échelle pour la séparation de sources audio de bout en bout
Résumé

Les modèles de séparation de sources audio fonctionnent généralement sur le spectre d'amplitude, ce qui ignore les informations de phase et rend les performances de séparation dépendantes des hyperparamètres du front-end spectral. Par conséquent, nous examinons la séparation de sources de bout en bout dans le domaine temporel, ce qui permet de modéliser les informations de phase et évite les transformations spectrales fixes. En raison des taux d'échantillonnage élevés pour l'audio, l'utilisation d'un contexte temporel d'entrée long au niveau des échantillons est difficile, mais nécessaire pour obtenir des résultats de séparation de haute qualité en raison des corrélations temporelles à long terme. Dans ce contexte, nous proposons le Wave-U-Net, une adaptation du U-Net au domaine temporel unidimensionnel, qui rééchantillonne répétitivement les cartes de caractéristiques pour calculer et combiner des caractéristiques à différentes échelles temporelles. Nous introduisons également des améliorations architecturales supplémentaires, notamment une couche de sortie qui impose l'additivité des sources, une technique de rééchantillonnage et un cadre de prédiction sensible au contexte pour réduire les artefacts de sortie. Les expériences menées pour la séparation de la voix chantée indiquent que notre architecture offre une performance comparable à celle d'une architecture U-Net basée sur le spectrogramme et considérée comme étant à l'état de l'art, étant donné les mêmes données. Enfin, nous mettons en lumière un problème lié aux valeurs aberrantes dans les métriques d'évaluation SDR actuellement utilisées et suggérons la présentation de statistiques basées sur le rang pour atténuer ce problème.

Wave-U-Net : Un réseau neuronal multi-échelle pour la séparation de sources audio de bout en bout | Articles de recherche récents | HyperAI