HyperAIHyperAI

Command Palette

Search for a command to run...

OverFlow: Flüsse auf neuronale Transduktoren für bessere TTS aufbauen

Shivam Mehta Ambika Kirkland Harm Lameris Jonas Beskow Éva Székely Gustav Eje Henter

Zusammenfassung

Neuronale HMMs (Hidden Markov Models) sind eine Art neuronaler Transduktoren, die kürzlich für das sequenzbasierte Modellieren im Text-zu-Sprache-Prozess vorgeschlagen wurden. Sie kombinieren die besten Eigenschaften klassischer statistischer Sprachsynthese und moderner neuronalen TTS-Systeme, benötigen weniger Daten und Trainingsaktualisierungen und sind weniger anfällig für sinnloses Ausgabeergebnisse, die durch Fehlschläge des neuronalen Aufmerksamkeitsmechanismus verursacht werden. In dieser Arbeit kombinieren wir neuronale HMM-TTS-Systeme mit Normalizing Flows, um die stark nicht-gaußsche Verteilung der sprachlichen Akustik zu beschreiben. Das Ergebnis ist ein leistungsstarkes, vollständig wahrscheinlichkeitstheoretisches Modell von Dauern und Akustik, das mit exakter Maximum-Likelihood-Methode trainiert werden kann. Experimente zeigen, dass ein System auf Basis unseres Ansatzes weniger Aktualisierungen als vergleichbare Methoden benötigt, um genaue Aussprachen und eine subjektive Sprachqualität zu erzeugen, die der natürlichen Sprache nahekommt. Für Audio-Beispiele und Code siehe bitte https://shivammehta25.github.io/OverFlow/.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
OverFlow: Flüsse auf neuronale Transduktoren für bessere TTS aufbauen | Paper | HyperAI