HyperAI
il y a 17 jours

Optimisation de la synthèse vocale multilingue avec accents et émotions

Pawar, Pranav ; Dwivedi, Akshansh ; Boricha, Jenish ; Gohil, Himanshu ; Dubey, Aditya
Optimisation de la synthèse vocale multilingue avec accents et émotions
Résumé

Les systèmes de synthèse vocale d'avant-garde (text-to-speech, TTS) atteignent une grande naturalité dans les environnements monolingues, mais la synthèse de la parole avec des accents multilingues corrects (en particulier pour les langues indo-aryennes) et des émotions pertinentes au contexte reste un défi en raison des disparités de nuances culturelles dans les cadres actuels. Cet article présente une nouvelle architecture TTS intégrant l'accent tout en préservant la translittération, avec un modèle d'émotion à plusieurs échelles, spécialement ajustée pour l'accent hindi et anglais indien. Notre approche étend le modèle Parler-TTS en intégrant une architecture hybride encodeur-décodeur spécifique aux langues pour l'alignement phonétique, ainsi que des couches d'incrustation d'émotion sensibles à la culture formées sur des corpus de locuteurs natifs, et en incorporant un changement dynamique de code d'accent avec une quantification vectorielle résiduelle. Les tests quantitatifs montrent une amélioration de 23,7 % en termes de précision de l'accent (réduction du taux d'erreur par mot de 15,4 % à 11,8 %) et une précision de reconnaissance émotionnelle de 85,3 % par des auditeurs natifs, surpassant les modèles basiques METTS et VECL-TTS. La nouveauté du système réside dans sa capacité à mélanger les codes en temps réel – générant des phrases comme « Namaste, parlons de » avec des transitions d'accent fluides tout en préservant la cohérence émotionnelle. Une évaluation subjective auprès de 200 utilisateurs a rapporté une note moyenne (mean opinion score, MOS) de 4,2/5 pour la justesse culturelle, bien meilleure que celle des systèmes multilingues existants (p<0,01). Cette recherche rend la synthèse interlinguistique plus réalisable en mettant en lumière une séparation scalable entre accent et émotion, avec des applications directes dans les technologies éducatives sud-asiatiques et les logiciels d'accessibilité.