HyperAIHyperAI
il y a 2 mois

OverFlow : Placement de flux au-dessus des transducteurs neuronaux pour une meilleure synthèse vocale (TTS)

Shivam Mehta; Ambika Kirkland; Harm Lameris; Jonas Beskow; Éva Székely; Gustav Eje Henter
OverFlow : Placement de flux au-dessus des transducteurs neuronaux pour une meilleure synthèse vocale (TTS)
Résumé

Les HMMs neuronaux sont un type de transducteur neuronal récemment proposé pour la modélisation séquence-à-séquence en synthèse vocale à partir du texte. Ils combinent les meilleures caractéristiques de la synthèse vocale statistique classique et de la synthèse vocale neuronale moderne, nécessitant moins de données et moins de mises à jour d'entraînement, et sont moins sujets aux sorties incohérentes causées par des échecs d'attention neuronale. Dans cet article, nous combinons les HMMs neuronaux TTS avec les flux normalisants pour décrire la distribution hautement non gaussienne des caractéristiques acoustiques de la parole. Le résultat est un modèle puissant et entièrement probabiliste des durées et des caractéristiques acoustiques qui peut être entraîné en utilisant une vraisemblance maximale exacte. Les expériences montrent qu'un système basé sur notre proposition nécessite moins de mises à jour que les méthodes comparables pour produire des prononciations précises et une qualité subjective de la parole proche de celle du discours naturel. Pour des exemples audio et du code, veuillez consulter https://shivammehta25.github.io/OverFlow/.

OverFlow : Placement de flux au-dessus des transducteurs neuronaux pour une meilleure synthèse vocale (TTS) | Articles de recherche récents | HyperAI