HyperAIHyperAI

Command Palette

Search for a command to run...

FastDiff : un modèle de diffusion conditionnelle rapide pour une synthèse vocale de haute qualité

Rongjie Huang Max W. Y. Lam Jun Wang Dan Su Dong Yu Yi Ren Zhou Zhao

Résumé

Les modèles probabilistes diffusifs débruitants (DDPM) ont récemment atteint des performances de pointe dans de nombreuses tâches génératives. Toutefois, leur processus itératif d’échantillonnage, coûteux en temps, a limité leur application à la synthèse vocale. Ce papier propose FastDiff, un modèle diffusion conditionnel rapide pour la synthèse vocale de haute qualité. FastDiff utilise une pile de couches de convolution à variable d’emplacement et sensible au temps, avec des motifs de champ réceptif variés, afin de modéliser efficacement les dépendances temporelles à long terme sous des conditions adaptatives. Un prédicteur d’échelle de bruit est également intégré pour réduire le nombre d’étapes d’échantillonnage sans compromettre la qualité de génération. À partir de FastDiff, nous avons conçu un synthétiseur vocaux texte-à-parole entièrement end-to-end, FastDiff-TTS, capable de générer des ondes vocales de haute fidélité sans aucune caractéristique intermédiaire (par exemple, spectrogramme de Mel). Nos évaluations montrent que FastDiff atteint des résultats de pointe, avec des échantillons vocaux de qualité supérieure (MOS = 4,28). En outre, FastDiff permet une vitesse d’échantillonnage 58 fois plus rapide que le temps réel sur une GPU V100, rendant les modèles diffusion pratiquement applicables pour la première fois au déploiement de la synthèse vocale. Nous montrons également que FastDiff généralise bien à l’inversion de spectrogrammes de Mel pour des locuteurs inconnus, et que FastDiff-TTS surpasse les méthodes concurrentes dans la synthèse vocale texte-à-parole entièrement end-to-end. Des exemples audio sont disponibles à l’adresse \url{https://FastDiff.github.io/}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp