HyperAIHyperAI
vor 2 Monaten

Zur Entwicklung von Text-to-Speech-Systemen für die nächste Milliarde Nutzer

Gokul Karthik Kumar; Praveen S V; Pratyush Kumar; Mitesh M. Khapra; Karthik Nandakumar
Zur Entwicklung von Text-to-Speech-Systemen für die nächste Milliarde Nutzer
Abstract

Text-to-Speech-Systeme (TTS), die auf tiefem Lernen basieren, entwickeln sich rasch mit Fortschritten in den Modellarchitekturen, Trainingsmethoden und der Generalisierung über Sprecher und Sprachen hinweg. Allerdings wurden diese Fortschritte für die Sprachsynthese indischer Sprachen noch nicht gründlich untersucht. Eine solche Untersuchung ist rechnerisch teuer, wenn man die Anzahl und Vielfalt der indischen Sprachen, die relativ geringere Ressourcenverfügbarkeit und die vielfältigen Fortschritte im Bereich des neuronalen TTS berücksichtigt, die bisher nicht getestet wurden. In dieser Arbeit bewerten wir die Wahl von akustischen Modellen, Vokodern, zusätzlichen Verlustfunktionen, Trainingsplänen sowie der Vielfalt an Sprechern und Sprachen für Dravidische und Indoiranische Sprachen. Auf dieser Grundlage identifizieren wir monolinguale Modelle mit FastPitch und HiFi-GAN V1, die gemeinsam auf männliche und weibliche Sprecher trainiert wurden und sich als am besten geeignet erweisen. Mit dieser Konfiguration trainieren und evaluieren wir TTS-Modelle für 13 Sprachen und stellen fest, dass unsere Modelle in allen Sprachen signifikante Verbesserungen gegenüber bestehenden Modellen erzielen, wie durch mittlere Bewertungsscores gemessen. Wir stellen alle Modelle unter der Open-Source-Lizenz auf der Plattform Bhashini zur Verfügung.

Zur Entwicklung von Text-to-Speech-Systemen für die nächste Milliarde Nutzer | Neueste Forschungsarbeiten | HyperAI