HyperAIHyperAI

Command Palette

Search for a command to run...

FastSpeech: Schnell, robust und steuerbar – Text-zu-Sprache

Yi Ren Yangjun Ruan Xu Tan Tao Qin Sheng Zhao Zhou Zhao Tie-Yan Liu

Zusammenfassung

Neuronale Netzwerke basierte End-to-End Text-to-Speech (TTS) haben die Qualität der synthetisierten Sprache erheblich verbessert. Prominente Methoden (z.B. Tacotron 2) generieren in der Regel zunächst ein Mel-Spektrogramm aus dem Text und synthetisieren dann die Sprache aus diesem Mel-Spektrogramm unter Verwendung eines Vokoders wie WaveNet. Im Vergleich zu traditionellen konglomerativen und statistischen parametrischen Ansätzen leiden neuronale Netzwerke basierte End-to-End Modelle an einer langsamen Inferenzgeschwindigkeit, und die synthetisierte Sprache ist oft nicht robust (d.h., einige Wörter werden übersprungen oder wiederholt) und mangelhaft steuerbar (Steuern der Stimmgeschwindigkeit oder Prosodie).In dieser Arbeit schlagen wir ein neues feedforward Netzwerk auf Basis des Transformers vor, um das Mel-Spektrogramm für TTS parallel zu generieren. Insbesondere extrahieren wir Aufmerksamkeitsausrichtungen von einem encoder-decoder-basierten Lehrmodell zur Vorhersage der Phonemdauer, die von einem Längenregulator verwendet wird, um die Quellphonemsequenz zu erweitern, um mit der Länge der Ziel-Mel-Spektrogrammsequenz übereinzustimmen, wodurch eine parallele Generierung des Mel-Spektrogramms ermöglicht wird. Experimente mit dem LJSpeech-Datensatz zeigen, dass unser paralleles Modell den autoregressiven Modellen hinsichtlich der Sprachqualität entspricht, das Problem des Überspringens und Wiederholens von Wörtern in besonders schwierigen Fällen nahezu beseitigt und die Stimmgeschwindigkeit reibungslos anpassen kann.Von größter Bedeutung ist jedoch, dass unser Modell im Vergleich zum autoregressiven Transformer-TTS die Generierung des Mel-Spektrogramms um das 270-fache beschleunigt und die End-to-End-Sprachsynthese um das 38-fache. Daher nennen wir unser Modell FastSpeech.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp