HyperAIHyperAI

Command Palette

Search for a command to run...

Optimierung der mehrsprachigen Text-zu-Sprache-Systeme mit Akzenten und Emotionen

Pawar Pranav Dwivedi Akshansh Boricha Jenish Gohil Himanshu Dubey Aditya

Zusammenfassung

Zustandsderkunst-Text-zu-Sprache (TTS)-Systeme erreichen eine hohe Naturlichkeit in monolingualen Umgebungen; die Synthese von Sprache mit korrekten mehrsprachigen Akzenten (insbesondere für indische Sprachen) und kontextrelevanten Emotionen stellt jedoch aufgrund der kulturellen Nuancenunterschiede in aktuellen Frameworks weiterhin eine Herausforderung dar. Dieses Papier stellt eine neue TTS-Architektur vor, die Akzente integriert und gleichzeitig Transliteration bewahrt, unterstützt durch ein mehrskaliges Emotionsmodell, das insbesondere für den Hindi- und indischen Englischakzent optimiert ist. Unser Ansatz erweitert das Parler-TTS-Modell durch die Integration einer sprachspezifischen Phonemausrichtungshybriden Encoder-Decoder-Architektur sowie durch kulturbezogene Emotions-Einbettungsschichten, die anhand von Korpora muttersprachlicher Sprecher trainiert wurden. Zudem wird ein dynamisches Akzentcode-Switching mit residueller Vektorquantisierung eingeführt. Quantitative Tests zeigen eine Verbesserung der Akzentgenauigkeit um 23,7 % (Reduktion des Wortfehlerrates von 15,4 % auf 11,8 %) und eine Erkennungsrate von 85,3 % für Emotionen durch muttersprachliche Hörer, was die Baselines METTS und VECL-TTS übertrifft. Die Neuartigkeit des Systems liegt darin, dass es Code in Echtzeit mischen kann – es generiert Aussagen wie „Namaste, lass uns über sprechen“ mit nahtlosen Akzentwechseln und gleichzeitiger Bewahrung der emotionalen Konsistenz. Eine subjektive Bewertung durch 200 Benutzer ergab einen mittleren Meinungswert (MOS) von 4,2/5 für kulturelle Richtigkeit, was deutlich besser als bei existierenden mehrsprachigen Systemen ist (p<0,01). Diese Forschung macht kreuzsprachliche Synthese dadurch praktikabler, dass sie skalierbare Akzent-Emotions-Dissociierung demonstriert, mit direkter Anwendungsmöglichkeit in EdTech und Barrierefreiheitssoftware im südasiatischen Raum.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Optimierung der mehrsprachigen Text-zu-Sprache-Systeme mit Akzenten und Emotionen | Paper | HyperAI