HyperAIHyperAI

Command Palette

Search for a command to run...

Matcha-TTS : Une architecture TTS rapide avec un ajustement de flux conditionnel

Shivam Mehta; Ruibo Tu; Jonas Beskow; Éva Székely; Gustav Eje Henter

Résumé

Nous présentons Matcha-TTS, une nouvelle architecture encodeur-décodeur pour la modélisation acoustique rapide de la synthèse vocale (TTS), formée en utilisant l'appariement de flux conditionnel par transport optimal (OT-CFM). Cette méthode produit un décodeur basé sur les équations différentielles ordinaires (ODE) capable d'atteindre une qualité de sortie élevée en moins d'étapes de synthèse que les modèles formés par appariement de scores. Des choix de conception soigneusement étudiés garantissent également que chaque étape de synthèse s'exécute rapidement. La méthode est probabiliste, non auto-régressive et apprend à parler à partir de zéro sans alignements externes. Comparée aux modèles pré-entraînés performants, le système Matcha-TTS présente la plus petite empreinte mémoire, rivalise avec la vitesse des modèles les plus rapides pour les longues phrases, et obtient la note moyenne la plus élevée lors d'un test d'écoute. Veuillez consulter https://shivammehta25.github.io/Matcha-TTS/ pour des exemples audio, du code et des modèles pré-entraînés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp