FastDiff : un modèle de diffusion conditionnelle rapide pour une synthèse vocale de haute qualité

Les modèles probabilistes diffusifs débruitants (DDPM) ont récemment atteint des performances de pointe dans de nombreuses tâches génératives. Toutefois, leur processus itératif d’échantillonnage, coûteux en temps, a limité leur application à la synthèse vocale. Ce papier propose FastDiff, un modèle diffusion conditionnel rapide pour la synthèse vocale de haute qualité. FastDiff utilise une pile de couches de convolution à variable d’emplacement et sensible au temps, avec des motifs de champ réceptif variés, afin de modéliser efficacement les dépendances temporelles à long terme sous des conditions adaptatives. Un prédicteur d’échelle de bruit est également intégré pour réduire le nombre d’étapes d’échantillonnage sans compromettre la qualité de génération. À partir de FastDiff, nous avons conçu un synthétiseur vocaux texte-à-parole entièrement end-to-end, FastDiff-TTS, capable de générer des ondes vocales de haute fidélité sans aucune caractéristique intermédiaire (par exemple, spectrogramme de Mel). Nos évaluations montrent que FastDiff atteint des résultats de pointe, avec des échantillons vocaux de qualité supérieure (MOS = 4,28). En outre, FastDiff permet une vitesse d’échantillonnage 58 fois plus rapide que le temps réel sur une GPU V100, rendant les modèles diffusion pratiquement applicables pour la première fois au déploiement de la synthèse vocale. Nous montrons également que FastDiff généralise bien à l’inversion de spectrogrammes de Mel pour des locuteurs inconnus, et que FastDiff-TTS surpasse les méthodes concurrentes dans la synthèse vocale texte-à-parole entièrement end-to-end. Des exemples audio sont disponibles à l’adresse \url{https://FastDiff.github.io/}.