il y a 8 mois

Résumé

Les modèles de séparation vocale sont utilisés pour isoler des locuteurs individuels dans de nombreuses applications de traitement de la parole. Les modèles d'apprentissage profond ont montré qu'ils permettent d'obtenir des résultats de pointe (SOTA) sur plusieurs benchmarks de séparation vocale. Parmi ces modèles, une classe connue sous le nom de réseaux convolutifs temporels (TCNs) a démontré des résultats prometteurs pour les tâches de séparation vocale. Une limitation de ces modèles est qu'ils possèdent un champ récepteur (RF) fixe. Des recherches récentes en déréverbération vocale ont montré que le RF optimal d'un TCN varie en fonction des caractéristiques de réverbération du signal vocal. Dans ce travail, la convolution déformable est proposée comme solution pour permettre aux modèles TCN d'avoir des RFs dynamiques capables de s'adapter à divers temps de réverbération pour la séparation vocale en environnement réverbérant. Les modèles proposés sont capables d'atteindre une amélioration moyenne du rapport signal-distorsion invariant par échelle (SISDR) de 11,1 dB par rapport au signal d'entrée sur le benchmark WHAMR. Un modèle TCN déformable relativement petit, avec 1,3 million de paramètres, est proposé, offrant des performances comparables en séparation vocale à des modèles plus grands et plus complexes sur le plan computationnel.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Réseau De Neurones Convolutif

Apprentissage Profond

Traitement Audio Et Vocal

William Ravenscroft Stefan Goetze Thomas Hain

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Réseau De Neurones Convolutif

Apprentissage Profond

Traitement Audio Et Vocal

William Ravenscroft Stefan Goetze Thomas Hain

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Réseaux de Convolution Temporelle Déformables pour la Séparation de la Parole Monoaurale Bruyante et Réverbérée

William Ravenscroft Stefan Goetze Thomas Hain

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseaux de Convolution Temporelle Déformables pour la Séparation de la Parole Monoaurale Bruyante et Réverbérée

William Ravenscroft Stefan Goetze Thomas Hain

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseaux de Convolution Temporelle Déformables pour la Séparation de la Parole Monoaurale Bruyante et Réverbérée

William Ravenscroft Stefan Goetze Thomas Hain

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters