HyperAIHyperAI

Command Palette

Search for a command to run...

Zur Entwicklung von Text-to-Speech-Systemen für die nächste Milliarde Nutzer

Gokul Karthik Kumar*†1,3,4 Praveen S V *1,2 Pratyush Kumar1,2,4 Mitesh M. Khapra1,2 Karthik Nandakumar3

Zusammenfassung

Text-to-Speech-Systeme (TTS), die auf tiefem Lernen basieren, entwickeln sich rasch mit Fortschritten in den Modellarchitekturen, Trainingsmethoden und der Generalisierung über Sprecher und Sprachen hinweg. Allerdings wurden diese Fortschritte für die Sprachsynthese indischer Sprachen noch nicht gründlich untersucht. Eine solche Untersuchung ist rechnerisch teuer, wenn man die Anzahl und Vielfalt der indischen Sprachen, die relativ geringere Ressourcenverfügbarkeit und die vielfältigen Fortschritte im Bereich des neuronalen TTS berücksichtigt, die bisher nicht getestet wurden. In dieser Arbeit bewerten wir die Wahl von akustischen Modellen, Vokodern, zusätzlichen Verlustfunktionen, Trainingsplänen sowie der Vielfalt an Sprechern und Sprachen für Dravidische und Indoiranische Sprachen. Auf dieser Grundlage identifizieren wir monolinguale Modelle mit FastPitch und HiFi-GAN V1, die gemeinsam auf männliche und weibliche Sprecher trainiert wurden und sich als am besten geeignet erweisen. Mit dieser Konfiguration trainieren und evaluieren wir TTS-Modelle für 13 Sprachen und stellen fest, dass unsere Modelle in allen Sprachen signifikante Verbesserungen gegenüber bestehenden Modellen erzielen, wie durch mittlere Bewertungsscores gemessen. Wir stellen alle Modelle unter der Open-Source-Lizenz auf der Plattform Bhashini zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp