Neuronale Sprachsynthese mit Transformer-Netzwerk

Obwohl end-to-end neuronale Text-zu-Sprache (TTS)-Methoden (wie Tacotron2) vorgeschlagen wurden und den aktuellen Stand der Technik erreichen, leiden sie noch an zwei Problemen: 1) geringer Effizienz während des Trainings und der Inferenz; 2) Schwierigkeiten bei der Modellierung langer Abhängigkeiten mit aktuellen rekurrenten neuronalen Netzen (RNNs). Inspiriert durch den Erfolg des Transformer-Netzes im Bereich der neuronalen Maschinübersetzung (NMT), stellen wir in dieser Arbeit eine Anpassung des Multi-Head-Aufmerksamkeitsmechanismus vor, um die RNN-Strukturen sowie den ursprünglichen Aufmerksamkeitsmechanismus in Tacotron2 zu ersetzen. Mit Hilfe des Multi-Head-Selbstaufmerksamkeitsmechanismus werden die verborgenen Zustände im Encoder und Decoder parallel konstruiert, was die Trainings-effizienz verbessert. Gleichzeitig sind beliebige zwei Eingaben zu unterschiedlichen Zeitpunkten direkt durch den Selbstaufmerksamkeitsmechanismus verbunden, was das Problem der langfristigen Abhängigkeiten effektiv löst. Unter Verwendung von Phonemsequenzen als Eingabe generiert unser Transformer-TTS-Netz Mel-Spektrogramme, die anschließend von einem WaveNet-Vocoder in die endgültigen Audiodaten umgewandelt werden. Experimente wurden durchgeführt, um die Effizienz und Leistung unseres neuen Netzwerks zu testen. Was die Effizienz betrifft, kann unser Transformer-TTS-Netz das Training gegenüber Tacotron2 um etwa 4,25 Mal beschleunigen. Was die Leistung betrifft, zeigen strenge menschliche Tests, dass unser vorgeschlagenes Modell den aktuellen Stand der Technik erreicht (Tacotron2 übertrifft es um einen Abstand von 0,048) und sehr nahe am menschlichen Qualitätsniveau liegt (4,39 gegenüber 4,44 im MOS).