il y a 6 mois

Résumé

Récemment, les réseaux de neurones profonds (DNN) ont été couramment utilisés pour l’amélioration de la parole, et les méthodes d’amélioration de la parole basées sur les DNN sont devenues un domaine de recherche particulièrement attractif. Bien que les méthodes fondées sur le masquage temps-fréquence basé sur la transformation de Fourier à court terme (STFT) aient été largement adoptées pour les approches DNN en amélioration de la parole au cours des dernières années, des méthodes en domaine temporel, telles que le réseau de séparation audio en domaine temporel (TasNet), ont également été proposées. Le choix de la méthode la plus adaptée dépend de l’échelle du jeu de données ainsi que du type de tâche considérée. Dans ce travail, nous explorons les algorithmes d’amélioration de la parole les plus performants sur deux jeux de données distincts. Nous proposons une méthode basée sur STFT ainsi qu’une fonction de perte utilisant des caractéristiques issues d’un encodeur de parole indépendant du problème (PASE), afin d’améliorer la qualité subjective sur le jeu de données plus petit. Nos méthodes proposées s’avèrent efficaces sur le jeu de données Voice Bank + DEMAND et se comparent avantageusement aux autres méthodes de pointe. Nous avons également mis en œuvre une version à faible latence de TasNet, que nous avons soumise au DNS Challenge et rendue publique via une diffusion open source. Notre modèle obtient des performances remarquables sur le jeu de données du DNS Challenge.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réseau De Neurones Convolutif

Apprentissage Profond

Traitement Audio Et Vocal

Yuichiro Koyama Tyler Vuong Stefan Uhlich Bhiksha Raj

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réseau De Neurones Convolutif

Apprentissage Profond

Traitement Audio Et Vocal

Yuichiro Koyama Tyler Vuong Stefan Uhlich Bhiksha Raj

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Exploration de la meilleure fonction de perte pour l’amélioration du speech à faible latence basée sur les réseaux de neurones profonds avec des réseaux de convolution temporelle | Articles | HyperAI

Command Palette

Exploration de la meilleure fonction de perte pour l’amélioration du speech à faible latence basée sur les réseaux de neurones profonds avec des réseaux de convolution temporelle

Yuichiro Koyama Tyler Vuong Stefan Uhlich Bhiksha Raj

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Exploration de la meilleure fonction de perte pour l’amélioration du speech à faible latence basée sur les réseaux de neurones profonds avec des réseaux de convolution temporelle

Yuichiro Koyama Tyler Vuong Stefan Uhlich Bhiksha Raj

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Exploration de la meilleure fonction de perte pour l’amélioration du speech à faible latence basée sur les réseaux de neurones profonds avec des réseaux de convolution temporelle

Yuichiro Koyama Tyler Vuong Stefan Uhlich Bhiksha Raj

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters