OverFlow: Flüsse auf neuronale Transduktoren für bessere TTS aufbauen

Neuronale HMMs (Hidden Markov Models) sind eine Art neuronaler Transduktoren, die kürzlich für das sequenzbasierte Modellieren im Text-zu-Sprache-Prozess vorgeschlagen wurden. Sie kombinieren die besten Eigenschaften klassischer statistischer Sprachsynthese und moderner neuronalen TTS-Systeme, benötigen weniger Daten und Trainingsaktualisierungen und sind weniger anfällig für sinnloses Ausgabeergebnisse, die durch Fehlschläge des neuronalen Aufmerksamkeitsmechanismus verursacht werden. In dieser Arbeit kombinieren wir neuronale HMM-TTS-Systeme mit Normalizing Flows, um die stark nicht-gaußsche Verteilung der sprachlichen Akustik zu beschreiben. Das Ergebnis ist ein leistungsstarkes, vollständig wahrscheinlichkeitstheoretisches Modell von Dauern und Akustik, das mit exakter Maximum-Likelihood-Methode trainiert werden kann. Experimente zeigen, dass ein System auf Basis unseres Ansatzes weniger Aktualisierungen als vergleichbare Methoden benötigt, um genaue Aussprachen und eine subjektive Sprachqualität zu erzeugen, die der natürlichen Sprache nahekommt. Für Audio-Beispiele und Code siehe bitte https://shivammehta25.github.io/OverFlow/.