HyperAIHyperAI

Command Palette

Search for a command to run...

Réseau de convolution temporelle hiérarchique avec encodeur à domaine croisé pour la séparation de sources musicales

Hao Huang Liang He Wenzhong Yang Yadong Chen Ying Hu

Résumé

Récemment, les méthodes basées sur le domaine temporel (c’est-à-dire les approches qui modélisent directement le signal bruité brut) pour la séparation de sources audio ont montré un potentiel considérable. Dans cet article, nous proposons un modèle qui combine les caractéristiques du domaine du spectrogramme complexe et celles du domaine temporel à l’aide d’un encodeur cross-domain (CDE), et qui utilise un réseau de convolution temporelle hiérarchique (HTCN) pour la séparation de plusieurs sources musicales. Le CDE est conçu pour permettre au réseau de coder efficacement les informations d’interaction entre les caractéristiques du domaine temporel et celles du domaine du spectrogramme complexe. Le HTCN permet quant à lui d’apprendre de manière efficace les dépendances à long terme dans les séries temporelles. Nous avons également conçu une unité de calibration des caractéristiques (FCU), intégrée dans le HTCN, et adopté une stratégie d’entraînement en plusieurs étapes. Une étude d’ablation démontre l’efficacité de chaque composant conçu dans le modèle. Des expériences ont été menées sur le jeu de données MUSDB18. Les résultats expérimentaux indiquent que notre modèle CDE-HTCN surpasser les méthodes de pointe, et améliore de 0,61 dB le score moyen de SDR par rapport à la méthode de pointe actuelle, DEMUCS. Notamment, l’amélioration du score SDR pour la source de basse atteint une marge significative de 0,91 dB.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseau de convolution temporelle hiérarchique avec encodeur à domaine croisé pour la séparation de sources musicales | Articles | HyperAI