Matcha-TTS : Une architecture TTS rapide avec un ajustement de flux conditionnel

Nous présentons Matcha-TTS, une nouvelle architecture encodeur-décodeur pour la modélisation acoustique rapide de la synthèse vocale (TTS), formée en utilisant l'appariement de flux conditionnel par transport optimal (OT-CFM). Cette méthode produit un décodeur basé sur les équations différentielles ordinaires (ODE) capable d'atteindre une qualité de sortie élevée en moins d'étapes de synthèse que les modèles formés par appariement de scores. Des choix de conception soigneusement étudiés garantissent également que chaque étape de synthèse s'exécute rapidement. La méthode est probabiliste, non auto-régressive et apprend à parler à partir de zéro sans alignements externes. Comparée aux modèles pré-entraînés performants, le système Matcha-TTS présente la plus petite empreinte mémoire, rivalise avec la vitesse des modèles les plus rapides pour les longues phrases, et obtient la note moyenne la plus élevée lors d'un test d'écoute. Veuillez consulter https://shivammehta25.github.io/Matcha-TTS/ pour des exemples audio, du code et des modèles pré-entraînés.