HyperAIHyperAI

Command Palette

Search for a command to run...

OverFlow : Placement de flux au-dessus des transducteurs neuronaux pour une meilleure synthèse vocale (TTS)

Shivam Mehta Ambika Kirkland Harm Lameris Jonas Beskow Éva Székely Gustav Eje Henter

Résumé

Les HMMs neuronaux sont un type de transducteur neuronal récemment proposé pour la modélisation séquence-à-séquence en synthèse vocale à partir du texte. Ils combinent les meilleures caractéristiques de la synthèse vocale statistique classique et de la synthèse vocale neuronale moderne, nécessitant moins de données et moins de mises à jour d'entraînement, et sont moins sujets aux sorties incohérentes causées par des échecs d'attention neuronale. Dans cet article, nous combinons les HMMs neuronaux TTS avec les flux normalisants pour décrire la distribution hautement non gaussienne des caractéristiques acoustiques de la parole. Le résultat est un modèle puissant et entièrement probabiliste des durées et des caractéristiques acoustiques qui peut être entraîné en utilisant une vraisemblance maximale exacte. Les expériences montrent qu'un système basé sur notre proposition nécessite moins de mises à jour que les méthodes comparables pour produire des prononciations précises et une qualité subjective de la parole proche de celle du discours naturel. Pour des exemples audio et du code, veuillez consulter https://shivammehta25.github.io/OverFlow/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
OverFlow : Placement de flux au-dessus des transducteurs neuronaux pour une meilleure synthèse vocale (TTS) | Articles | HyperAI