vor 7 Monaten

Zusammenfassung

Neuronale Netzwerke basierte End-to-End Text-to-Speech (TTS) haben die Qualität der synthetisierten Sprache erheblich verbessert. Prominente Methoden (z.B. Tacotron 2) generieren in der Regel zunächst ein Mel-Spektrogramm aus dem Text und synthetisieren dann die Sprache aus diesem Mel-Spektrogramm unter Verwendung eines Vokoders wie WaveNet. Im Vergleich zu traditionellen konglomerativen und statistischen parametrischen Ansätzen leiden neuronale Netzwerke basierte End-to-End Modelle an einer langsamen Inferenzgeschwindigkeit, und die synthetisierte Sprache ist oft nicht robust (d.h., einige Wörter werden übersprungen oder wiederholt) und mangelhaft steuerbar (Steuern der Stimmgeschwindigkeit oder Prosodie).In dieser Arbeit schlagen wir ein neues feedforward Netzwerk auf Basis des Transformers vor, um das Mel-Spektrogramm für TTS parallel zu generieren. Insbesondere extrahieren wir Aufmerksamkeitsausrichtungen von einem encoder-decoder-basierten Lehrmodell zur Vorhersage der Phonemdauer, die von einem Längenregulator verwendet wird, um die Quellphonemsequenz zu erweitern, um mit der Länge der Ziel-Mel-Spektrogrammsequenz übereinzustimmen, wodurch eine parallele Generierung des Mel-Spektrogramms ermöglicht wird. Experimente mit dem LJSpeech-Datensatz zeigen, dass unser paralleles Modell den autoregressiven Modellen hinsichtlich der Sprachqualität entspricht, das Problem des Überspringens und Wiederholens von Wörtern in besonders schwierigen Fällen nahezu beseitigt und die Stimmgeschwindigkeit reibungslos anpassen kann.Von größter Bedeutung ist jedoch, dass unser Modell im Vergleich zum autoregressiven Transformer-TTS die Generierung des Mel-Spektrogramms um das 270-fache beschleunigt und die End-to-End-Sprachsynthese um das 38-fache. Daher nennen wir unser Modell FastSpeech.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 7 Monaten

Yi Ren Yangjun Ruan Xu Tan Tao Qin Sheng Zhao Zhou Zhao Tie-Yan Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 7 Monaten

Yi Ren Yangjun Ruan Xu Tan Tao Qin Sheng Zhao Zhou Zhao Tie-Yan Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

FastSpeech: Schnell, robust und steuerbar – Text-zu-Sprache

Yi Ren Yangjun Ruan Xu Tan Tao Qin Sheng Zhao Zhou Zhao Tie-Yan Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

FastSpeech: Schnell, robust und steuerbar – Text-zu-Sprache

Yi Ren Yangjun Ruan Xu Tan Tao Qin Sheng Zhao Zhou Zhao Tie-Yan Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

FastSpeech: Schnell, robust und steuerbar – Text-zu-Sprache

Yi Ren Yangjun Ruan Xu Tan Tao Qin Sheng Zhao Zhou Zhao Tie-Yan Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters