Optimierung der mehrsprachigen Text-zu-Sprache-Systeme mit Akzenten und Emotionen

Zustandsderkunst-Text-zu-Sprache (TTS)-Systeme erreichen eine hohe Naturlichkeit in monolingualen Umgebungen; die Synthese von Sprache mit korrekten mehrsprachigen Akzenten (insbesondere für indische Sprachen) und kontextrelevanten Emotionen stellt jedoch aufgrund der kulturellen Nuancenunterschiede in aktuellen Frameworks weiterhin eine Herausforderung dar. Dieses Papier stellt eine neue TTS-Architektur vor, die Akzente integriert und gleichzeitig Transliteration bewahrt, unterstützt durch ein mehrskaliges Emotionsmodell, das insbesondere für den Hindi- und indischen Englischakzent optimiert ist. Unser Ansatz erweitert das Parler-TTS-Modell durch die Integration einer sprachspezifischen Phonemausrichtungshybriden Encoder-Decoder-Architektur sowie durch kulturbezogene Emotions-Einbettungsschichten, die anhand von Korpora muttersprachlicher Sprecher trainiert wurden. Zudem wird ein dynamisches Akzentcode-Switching mit residueller Vektorquantisierung eingeführt. Quantitative Tests zeigen eine Verbesserung der Akzentgenauigkeit um 23,7 % (Reduktion des Wortfehlerrates von 15,4 % auf 11,8 %) und eine Erkennungsrate von 85,3 % für Emotionen durch muttersprachliche Hörer, was die Baselines METTS und VECL-TTS übertrifft. Die Neuartigkeit des Systems liegt darin, dass es Code in Echtzeit mischen kann – es generiert Aussagen wie „Namaste, lass uns über sprechen“ mit nahtlosen Akzentwechseln und gleichzeitiger Bewahrung der emotionalen Konsistenz. Eine subjektive Bewertung durch 200 Benutzer ergab einen mittleren Meinungswert (MOS) von 4,2/5 für kulturelle Richtigkeit, was deutlich besser als bei existierenden mehrsprachigen Systemen ist (p<0,01). Diese Forschung macht kreuzsprachliche Synthese dadurch praktikabler, dass sie skalierbare Akzent-Emotions-Dissociierung demonstriert, mit direkter Anwendungsmöglichkeit in EdTech und Barrierefreiheitssoftware im südasiatischen Raum.