HyperAIHyperAI

Command Palette

Search for a command to run...

Neuronale Sprachsynthese auf Deutsch

René Peinl Pascal Puchtler Johannes Wirth

Zusammenfassung

Während viele auf tiefen neuronalen Netzen basierende Sprachsynthesesysteme im Englischen umfassend evaluiert und kostenlos verfügbar sind, wurden Modelle für Sprachen mit deutlich weniger aktiven Sprechern, wie beispielsweise Deutsch, bisher kaum trainiert und meist nicht für den allgemeinen Gebrauch veröffentlicht. Diese Arbeit behandelt spezifische Herausforderungen beim Training von Text-zu-Sprache-Modellen für die deutsche Sprache, darunter die Auswahl von Datensätzen und die Datenaufbereitung, und präsentiert den Trainingsprozess mehrerer Modelle eines end-to-end-Text-zu-Sprache-Systems, das auf einer Kombination aus Tacotron 2 und Multi-Band MelGAN basiert. Alle Modellkompositionen wurden anhand des mittleren Meinungsscores (Mean Opinion Score, MOS) evaluiert, wobei vergleichbare Ergebnisse erzielt wurden wie bei in der Literatur vorgestellten Modellen, die auf englischen Datensätzen trainiert und evaluiert wurden. Zudem identifizierten empirische Analysen einzelne Aspekte, die die Qualität solcher Systeme beeinflussen, basierend auf subjektiver Benutzererfahrung. Alle trainierten Modelle werden öffentlich zur Nutzung bereitgestellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Neuronale Sprachsynthese auf Deutsch | Paper | HyperAI