HyperAIHyperAI

Command Palette

Search for a command to run...

HiFi-GAN : Réseaux adversaires génératifs pour la synthèse vocale efficace et à haute fidélité

Jungil Kong Jaehyeon Kim Jaekyoung Bae

Résumé

Plusieurs travaux récents sur la synthèse vocale ont recouru aux réseaux génératifs adversaires (GAN) afin de produire directement des signaux bruts en temps réel. Bien que ces méthodes améliorent l’efficacité d’échantillonnage et la consommation mémoire, leur qualité d’échantillonnage n’a pas encore atteint celle des modèles génératifs autoregressifs ou basés sur les flux. Dans ce travail, nous proposons HiFi-GAN, une méthode qui permet une synthèse vocale à la fois efficace et de haute fidélité. Étant donné que les signaux audio vocaux sont composés de signaux sinusoïdaux aux périodes variées, nous démontrons que la modélisation des motifs périodiques dans un signal audio est essentielle pour améliorer la qualité des échantillons générés. Une évaluation subjective par des humains (score moyen d’opinion, MOS) effectuée sur un ensemble de données à un seul locuteur montre que notre méthode atteint une qualité proche de celle de l’humain tout en générant des audio de haute fidélité à 22,05 kHz, soit 167,9 fois plus vite que le temps réel, sur une seule GPU V100. Nous démontrons également la généralisation de HiFi-GAN à la reconstruction de mel-spectrogrammes pour des locuteurs inconnus, ainsi qu’à la synthèse vocale end-to-end. Enfin, une version compacte de HiFi-GAN génère des échantillons 13,4 fois plus vite que le temps réel sur un processeur central (CPU), tout en offrant une qualité comparable à celle d’un modèle autoregressif.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp