HiFi-GAN : Réseaux adversaires génératifs pour la synthèse vocale efficace et à haute fidélité

Plusieurs travaux récents sur la synthèse vocale ont recouru aux réseaux génératifs adversaires (GAN) afin de produire directement des signaux bruts en temps réel. Bien que ces méthodes améliorent l’efficacité d’échantillonnage et la consommation mémoire, leur qualité d’échantillonnage n’a pas encore atteint celle des modèles génératifs autoregressifs ou basés sur les flux. Dans ce travail, nous proposons HiFi-GAN, une méthode qui permet une synthèse vocale à la fois efficace et de haute fidélité. Étant donné que les signaux audio vocaux sont composés de signaux sinusoïdaux aux périodes variées, nous démontrons que la modélisation des motifs périodiques dans un signal audio est essentielle pour améliorer la qualité des échantillons générés. Une évaluation subjective par des humains (score moyen d’opinion, MOS) effectuée sur un ensemble de données à un seul locuteur montre que notre méthode atteint une qualité proche de celle de l’humain tout en générant des audio de haute fidélité à 22,05 kHz, soit 167,9 fois plus vite que le temps réel, sur une seule GPU V100. Nous démontrons également la généralisation de HiFi-GAN à la reconstruction de mel-spectrogrammes pour des locuteurs inconnus, ainsi qu’à la synthèse vocale end-to-end. Enfin, une version compacte de HiFi-GAN génère des échantillons 13,4 fois plus vite que le temps réel sur un processeur central (CPU), tout en offrant une qualité comparable à celle d’un modèle autoregressif.