HyperAIHyperAI

Command Palette

Search for a command to run...

Modélisation interactive de la parole et du bruit pour l’amélioration de la parole

Chengyu Zheng Xiulian Peng Yuan Zhang Sriram Srinivasan Yan Lu

Résumé

L’amélioration de la parole est un défi en raison de la diversité des types de bruit ambiant. La plupart des méthodes existantes se concentrent sur la modélisation de la parole plutôt que sur celle du bruit. Dans cet article, nous proposons une nouvelle approche visant à modéliser simultanément la parole et le bruit au sein d’un réseau de neurones convolutif à deux branches, nommé SN-Net. Dans SN-Net, les deux branches prédise respectivement la parole et le bruit. Contrairement à une fusion d’informations limitée à la couche de sortie finale, des modules d’interaction sont introduits à plusieurs niveaux intermédiaires des représentations features entre les deux branches, afin de favoriser leur complémentarité. Cette interaction permet d’exploiter les caractéristiques apprises par une branche pour atténuer les composantes indésirables et restaurer les éléments manquants de l’autre, améliorant ainsi leur capacité de discrimination. Nous avons également conçu un module d’extraction de caractéristiques, appelé résiduel-convolution-attention (RA), destiné à capturer les corrélations le long des dimensions temporelle et fréquentielle, tant pour la parole que pour le bruit. Les évaluations sur des jeux de données publics montrent que le module d’interaction joue un rôle clé dans la modélisation simultanée, et que SN-Net surpasser considérablement les méthodes de pointe sur diverses métriques d’évaluation. Le modèle proposé SN-Net démontre également des performances supérieures dans la séparation des locuteurs.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modélisation interactive de la parole et du bruit pour l’amélioration de la parole | Articles | HyperAI