HyperAIHyperAI

Command Palette

Search for a command to run...

Optimisation de la synthèse vocale multilingue avec accents et émotions

Pawar Pranav Dwivedi Akshansh Boricha Jenish Gohil Himanshu Dubey Aditya

Résumé

Les systèmes de synthèse vocale d'avant-garde (text-to-speech, TTS) atteignent une grande naturalité dans les environnements monolingues, mais la synthèse de la parole avec des accents multilingues corrects (en particulier pour les langues indo-aryennes) et des émotions pertinentes au contexte reste un défi en raison des disparités de nuances culturelles dans les cadres actuels. Cet article présente une nouvelle architecture TTS intégrant l'accent tout en préservant la translittération, avec un modèle d'émotion à plusieurs échelles, spécialement ajustée pour l'accent hindi et anglais indien. Notre approche étend le modèle Parler-TTS en intégrant une architecture hybride encodeur-décodeur spécifique aux langues pour l'alignement phonétique, ainsi que des couches d'incrustation d'émotion sensibles à la culture formées sur des corpus de locuteurs natifs, et en incorporant un changement dynamique de code d'accent avec une quantification vectorielle résiduelle. Les tests quantitatifs montrent une amélioration de 23,7 % en termes de précision de l'accent (réduction du taux d'erreur par mot de 15,4 % à 11,8 %) et une précision de reconnaissance émotionnelle de 85,3 % par des auditeurs natifs, surpassant les modèles basiques METTS et VECL-TTS. La nouveauté du système réside dans sa capacité à mélanger les codes en temps réel – générant des phrases comme « Namaste, parlons de » avec des transitions d'accent fluides tout en préservant la cohérence émotionnelle. Une évaluation subjective auprès de 200 utilisateurs a rapporté une note moyenne (mean opinion score, MOS) de 4,2/5 pour la justesse culturelle, bien meilleure que celle des systèmes multilingues existants (p<0,01). Cette recherche rend la synthèse interlinguistique plus réalisable en mettant en lumière une séparation scalable entre accent et émotion, avec des applications directes dans les technologies éducatives sud-asiatiques et les logiciels d'accessibilité.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp