HyperAIHyperAI
il y a 2 mois

Réseaux de Convolution Temporelle Déformables pour la Séparation de la Parole Monoaurale Bruyante et Réverbérée

William Ravenscroft; Stefan Goetze; Thomas Hain
Réseaux de Convolution Temporelle Déformables pour la Séparation de la Parole Monoaurale Bruyante et Réverbérée
Résumé

Les modèles de séparation vocale sont utilisés pour isoler des locuteurs individuels dans de nombreuses applications de traitement de la parole. Les modèles d'apprentissage profond ont montré qu'ils permettent d'obtenir des résultats de pointe (SOTA) sur plusieurs benchmarks de séparation vocale. Parmi ces modèles, une classe connue sous le nom de réseaux convolutifs temporels (TCNs) a démontré des résultats prometteurs pour les tâches de séparation vocale. Une limitation de ces modèles est qu'ils possèdent un champ récepteur (RF) fixe. Des recherches récentes en déréverbération vocale ont montré que le RF optimal d'un TCN varie en fonction des caractéristiques de réverbération du signal vocal. Dans ce travail, la convolution déformable est proposée comme solution pour permettre aux modèles TCN d'avoir des RFs dynamiques capables de s'adapter à divers temps de réverbération pour la séparation vocale en environnement réverbérant. Les modèles proposés sont capables d'atteindre une amélioration moyenne du rapport signal-distorsion invariant par échelle (SISDR) de 11,1 dB par rapport au signal d'entrée sur le benchmark WHAMR. Un modèle TCN déformable relativement petit, avec 1,3 million de paramètres, est proposé, offrant des performances comparables en séparation vocale à des modèles plus grands et plus complexes sur le plan computationnel.

Réseaux de Convolution Temporelle Déformables pour la Séparation de la Parole Monoaurale Bruyante et Réverbérée | Articles de recherche récents | HyperAI