Neuronale HMMs sind alles, was Sie brauchen (für hochwertige, aufmerksamkeitsfreie TTS)

Neuronale sequenz-zu-Sequenz-Sprachsynthese hat eine deutlich höhere Ausgabegüte im Vergleich zu statistischer Sprachsynthese mittels HMMs erreicht. Allerdings ist neuronale TTS im Allgemeinen nicht probabilistisch und verwendet eine nicht-monotone Aufmerksamkeit. Aufmerksamkeitsfehler verlängern die Trainingszeit und können zu inkohärentem, babbelndem Sprechen führen. In diesem Paper wird beschrieben, wie die alten und neuen Paradigmen kombiniert werden können, um die Vorteile beider Ansätze zu vereinen, indem die Aufmerksamkeit in der neuronalen TTS durch ein autoregressives, links-rechts-orientiertes, nicht-skipendes verborgenes Markov-Modell ersetzt wird, das durch ein neuronales Netzwerk definiert ist. Auf Basis dieses Ansatzes modifizieren wir Tacotron 2, um ein HMM-basiertes neuronales TTS-Modell mit monotoner Ausrichtung zu erhalten, das die volle Sequenz-Wahrscheinlichkeit ohne Approximation maximiert. Zudem wird erläutert, wie Ideen aus klassischer und moderner TTS optimal kombiniert werden können, um die besten Ergebnisse zu erzielen. Das resultierende System ist kleiner und einfacher als Tacotron 2, lernt mit weniger Iterationen und weniger Daten zu sprechen und erreicht eine vergleichbare Natürlichkeit vor dem Post-Net. Unser Ansatz ermöglicht zudem eine einfache Steuerung der Sprechgeschwindigkeit.