HyperAIHyperAI

Command Palette

Search for a command to run...

Tacotron: Auf dem Weg zur end-to-end Sprachsynthese

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

Zusammenfassung

Ein Text-zu-Sprache-Synthesissystem besteht in der Regel aus mehreren Stufen, wie einem Textanalyse-Frontend, einem akustischen Modell und einem Audiosynthese-Modul. Die Entwicklung dieser Komponenten erfordert oft umfangreiche Fachkenntnisse und kann fragwürdige Designentscheidungen beinhalten. In dieser Arbeit stellen wir Tacotron vor, ein generatives End-zu-Ende-Text-zu-Sprache-Modell, das Sprache direkt aus Zeichen synthetisiert. Bei gegebenen <Text, Audio>-Paaren kann das Modell vollständig von Grund auf mit zufälliger Initialisierung trainiert werden. Wir präsentieren mehrere Schlüsseltechniken, die es ermöglichen, dass das Sequenz-zu-Sequenz-Framework für diese anspruchsvolle Aufgabe gut funktioniert. Tacotron erreicht eine subjektive 5-Stufen-Mean-Opinion-Score (MOS) von 3,82 bei amerikanischem Englisch und übertrifft ein parametrisches Produktionsystem hinsichtlich der Natürlichkeit. Zudem generiert Tacotron die Sprache auf Frame-Ebene, wodurch es erheblich schneller ist als autoregressive Methoden auf Sample-Ebene.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp