HyperAIHyperAI
il y a 11 jours

D3Net : Réseau Dense à connexions denses et multi-dilatations pour la séparation des sources musicales

Naoya Takahashi, Yuki Mitsufuji
D3Net : Réseau Dense à connexions denses et multi-dilatations pour la séparation des sources musicales
Résumé

La séparation de sources musicales repose sur un large champ d’entrée afin de modéliser la dépendance à long terme d’un signal audio. Les approches précédentes basées sur les réseaux de neurones convolutifs (CNN) abordent la modélisation du champ d’entrée étendu en utilisant des opérations de downsampling et upsampling successifs des cartes de caractéristiques ou des convolutions dilatées. Dans cet article, nous mettons en avant l’importance d’une croissance rapide du champ réceptif ainsi que de la modélisation simultanée de données à différentes résolutions au sein d’une seule couche convolutive, et proposons une nouvelle architecture CNN appelée D3Net (densely connected dilated DenseNet). Le D3Net intègre une nouvelle convolution multi-dilatée, qui applique différents facteurs de dilatation au sein d’une même couche pour modéliser simultanément différentes résolutions. En combinant cette convolution multi-dilatée avec l’architecture DenseNet, le D3Net évite le problème d’aliasing qui survient lorsqu’on incorpore de manière naïve une convolution dilatée dans un réseau DenseNet. Les résultats expérimentaux sur le jeu de données MUSDB18 montrent que le D3Net atteint une performance de pointe, avec un rapport signal à distorsion (SDR) moyen de 6,01 dB.

D3Net : Réseau Dense à connexions denses et multi-dilatations pour la séparation des sources musicales | Articles de recherche récents | HyperAI