Neuronale Sprachsynthese auf Deutsch

Während viele auf tiefen neuronalen Netzen basierende Sprachsynthesesysteme im Englischen umfassend evaluiert und kostenlos verfügbar sind, wurden Modelle für Sprachen mit deutlich weniger aktiven Sprechern, wie beispielsweise Deutsch, bisher kaum trainiert und meist nicht für den allgemeinen Gebrauch veröffentlicht. Diese Arbeit behandelt spezifische Herausforderungen beim Training von Text-zu-Sprache-Modellen für die deutsche Sprache, darunter die Auswahl von Datensätzen und die Datenaufbereitung, und präsentiert den Trainingsprozess mehrerer Modelle eines end-to-end-Text-zu-Sprache-Systems, das auf einer Kombination aus Tacotron 2 und Multi-Band MelGAN basiert. Alle Modellkompositionen wurden anhand des mittleren Meinungsscores (Mean Opinion Score, MOS) evaluiert, wobei vergleichbare Ergebnisse erzielt wurden wie bei in der Literatur vorgestellten Modellen, die auf englischen Datensätzen trainiert und evaluiert wurden. Zudem identifizierten empirische Analysen einzelne Aspekte, die die Qualität solcher Systeme beeinflussen, basierend auf subjektiver Benutzererfahrung. Alle trainierten Modelle werden öffentlich zur Nutzung bereitgestellt.