HyperAIHyperAI

Command Palette

Search for a command to run...

MMDenseLSTM : Une combinaison efficace de réseaux neuronaux convolutifs et récurrents pour la séparation de sources audio

Naoya Takahashi Nabarun Goswami Yuki Mitsufuji

Résumé

Les réseaux neuronaux profonds sont devenus une technique indispensable pour la séparation des sources audio (ASS). Il a été récemment rapporté qu'une variante de l'architecture CNN appelée MMDenseNet a été utilisée avec succès pour résoudre le problème ASS consistant à estimer les amplitudes des sources, et que des résultats d'état de l'art ont été obtenus pour l'ensemble de données DSD100. Pour améliorer davantage MMDenseNet, nous proposons ici une nouvelle architecture qui intègre des mémoires à court et long terme (LSTM) à plusieurs échelles avec des connexions de saut afin de modéliser efficacement les structures à long terme au sein d'un contexte audio. Les résultats expérimentaux montrent que la méthode proposée surpasse MMDenseNet, LSTM et un mélange des deux réseaux. Le nombre de paramètres et le temps de traitement du modèle proposé sont significativement inférieurs à ceux d'un simple mélange. De plus, la méthode proposée donne de meilleurs résultats que ceux obtenus en utilisant des masques binaires idéaux pour une tâche de séparation de voix chantée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MMDenseLSTM : Une combinaison efficace de réseaux neuronaux convolutifs et récurrents pour la séparation de sources audio | Articles | HyperAI