HyperAIHyperAI

Command Palette

Search for a command to run...

Wave-U-Net : Un réseau neuronal multi-échelle pour la séparation de sources audio de bout en bout

Daniel Stoller; Sebastian Ewert; Simon Dixon

Résumé

Les modèles de séparation de sources audio fonctionnent généralement sur le spectre d'amplitude, ce qui ignore les informations de phase et rend les performances de séparation dépendantes des hyperparamètres du front-end spectral. Par conséquent, nous examinons la séparation de sources de bout en bout dans le domaine temporel, ce qui permet de modéliser les informations de phase et évite les transformations spectrales fixes. En raison des taux d'échantillonnage élevés pour l'audio, l'utilisation d'un contexte temporel d'entrée long au niveau des échantillons est difficile, mais nécessaire pour obtenir des résultats de séparation de haute qualité en raison des corrélations temporelles à long terme. Dans ce contexte, nous proposons le Wave-U-Net, une adaptation du U-Net au domaine temporel unidimensionnel, qui rééchantillonne répétitivement les cartes de caractéristiques pour calculer et combiner des caractéristiques à différentes échelles temporelles. Nous introduisons également des améliorations architecturales supplémentaires, notamment une couche de sortie qui impose l'additivité des sources, une technique de rééchantillonnage et un cadre de prédiction sensible au contexte pour réduire les artefacts de sortie. Les expériences menées pour la séparation de la voix chantée indiquent que notre architecture offre une performance comparable à celle d'une architecture U-Net basée sur le spectrogramme et considérée comme étant à l'état de l'art, étant donné les mêmes données. Enfin, nous mettons en lumière un problème lié aux valeurs aberrantes dans les métriques d'évaluation SDR actuellement utilisées et suggérons la présentation de statistiques basées sur le rang pour atténuer ce problème.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Wave-U-Net : Un réseau neuronal multi-échelle pour la séparation de sources audio de bout en bout | Articles | HyperAI