HyperAIHyperAI
il y a 2 mois

Réseaux de convolution temporelle multi-dilatés à poids d'énoncé pour la déréverbération du discours monaural

William Ravenscroft; Stefan Goetze; Thomas Hain
Réseaux de convolution temporelle multi-dilatés à poids d'énoncé pour la déréverbération du discours monaural
Résumé

La déréverbération de la parole est une étape cruciale dans de nombreuses applications de la technologie de la parole. Les travaux récents dans ce domaine ont été largement dominés par les modèles de réseaux neuronaux profonds. Les réseaux convolutionnels temporels (RCT) sont des modèles d'apprentissage profond proposés pour la modélisation séquentielle dans la tâche de déréverbération de la parole. Dans cette étude, une convolution séparable en profondeur à dilatation pondérée multiple est proposée pour remplacer les convolutions séparables en profondeur standard dans les modèles RCT. Cette convolution proposée permet au RCT de se concentrer dynamiquement sur des informations plus ou moins locales dans son champ récepteur à chaque bloc convolutif du réseau. Il est démontré que ce réseau convolutionnel temporel à dilatation pondérée multiple (RCT-DPM) surpasse constamment le RCT sur diverses configurations de modèles et que l'utilisation du modèle RCT-DPM est une méthode plus efficace en termes de paramètres pour améliorer les performances du modèle que d'augmenter le nombre de blocs convolutifs. L'amélioration des performances la plus importante par rapport au RCT de base est de 0,55 dB en ratio signal-distorsion invariant à l'échelle (SISDR), et le meilleur modèle RCT-DPM atteint un SISDR de 12,26 dB sur l'ensemble de données WHAMR.

Réseaux de convolution temporelle multi-dilatés à poids d'énoncé pour la déréverbération du discours monaural | Articles de recherche récents | HyperAI