HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux de Convolution Temporelle Déformables pour la Séparation de la Parole Monoaurale Bruyante et Réverbérée

William Ravenscroft Stefan Goetze Thomas Hain

Résumé

Les modèles de séparation vocale sont utilisés pour isoler des locuteurs individuels dans de nombreuses applications de traitement de la parole. Les modèles d'apprentissage profond ont montré qu'ils permettent d'obtenir des résultats de pointe (SOTA) sur plusieurs benchmarks de séparation vocale. Parmi ces modèles, une classe connue sous le nom de réseaux convolutifs temporels (TCNs) a démontré des résultats prometteurs pour les tâches de séparation vocale. Une limitation de ces modèles est qu'ils possèdent un champ récepteur (RF) fixe. Des recherches récentes en déréverbération vocale ont montré que le RF optimal d'un TCN varie en fonction des caractéristiques de réverbération du signal vocal. Dans ce travail, la convolution déformable est proposée comme solution pour permettre aux modèles TCN d'avoir des RFs dynamiques capables de s'adapter à divers temps de réverbération pour la séparation vocale en environnement réverbérant. Les modèles proposés sont capables d'atteindre une amélioration moyenne du rapport signal-distorsion invariant par échelle (SISDR) de 11,1 dB par rapport au signal d'entrée sur le benchmark WHAMR. Un modèle TCN déformable relativement petit, avec 1,3 million de paramètres, est proposé, offrant des performances comparables en séparation vocale à des modèles plus grands et plus complexes sur le plan computationnel.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseaux de Convolution Temporelle Déformables pour la Séparation de la Parole Monoaurale Bruyante et Réverbérée | Articles | HyperAI