il y a 6 mois

Résumé

Plusieurs travaux récents sur la synthèse vocale ont recouru aux réseaux génératifs adversaires (GAN) afin de produire directement des signaux bruts en temps réel. Bien que ces méthodes améliorent l’efficacité d’échantillonnage et la consommation mémoire, leur qualité d’échantillonnage n’a pas encore atteint celle des modèles génératifs autoregressifs ou basés sur les flux. Dans ce travail, nous proposons HiFi-GAN, une méthode qui permet une synthèse vocale à la fois efficace et de haute fidélité. Étant donné que les signaux audio vocaux sont composés de signaux sinusoïdaux aux périodes variées, nous démontrons que la modélisation des motifs périodiques dans un signal audio est essentielle pour améliorer la qualité des échantillons générés. Une évaluation subjective par des humains (score moyen d’opinion, MOS) effectuée sur un ensemble de données à un seul locuteur montre que notre méthode atteint une qualité proche de celle de l’humain tout en générant des audio de haute fidélité à 22,05 kHz, soit 167,9 fois plus vite que le temps réel, sur une seule GPU V100. Nous démontrons également la généralisation de HiFi-GAN à la reconstruction de mel-spectrogrammes pour des locuteurs inconnus, ainsi qu’à la synthèse vocale end-to-end. Enfin, une version compacte de HiFi-GAN génère des échantillons 13,4 fois plus vite que le temps réel sur un processeur central (CPU), tout en offrant une qualité comparable à celle d’un modèle autoregressif.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Text-to-Speech

Synthèse

Réseau De Neurones Convolutif

Jungil Kong Jaehyeon Kim Jaekyoung Bae

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Text-to-Speech

Synthèse

Réseau De Neurones Convolutif

Jungil Kong Jaehyeon Kim Jaekyoung Bae

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HiFi-GAN : Réseaux adversaires génératifs pour la synthèse vocale efficace et à haute fidélité | Articles | HyperAI

Command Palette

HiFi-GAN : Réseaux adversaires génératifs pour la synthèse vocale efficace et à haute fidélité

Jungil Kong Jaehyeon Kim Jaekyoung Bae

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HiFi-GAN : Réseaux adversaires génératifs pour la synthèse vocale efficace et à haute fidélité

Jungil Kong Jaehyeon Kim Jaekyoung Bae

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HiFi-GAN : Réseaux adversaires génératifs pour la synthèse vocale efficace et à haute fidélité

Jungil Kong Jaehyeon Kim Jaekyoung Bae

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters