HyperAIHyperAI
vor 2 Monaten

FastSpeech: Schnell, robust und steuerbar – Text-zu-Sprache

Yi Ren; Yangjun Ruan; Xu Tan; Tao Qin; Sheng Zhao; Zhou Zhao; Tie-Yan Liu
FastSpeech: Schnell, robust und steuerbar – Text-zu-Sprache
Abstract

Neuronale Netzwerke basierte End-to-End Text-to-Speech (TTS) haben die Qualität der synthetisierten Sprache erheblich verbessert. Prominente Methoden (z.B. Tacotron 2) generieren in der Regel zunächst ein Mel-Spektrogramm aus dem Text und synthetisieren dann die Sprache aus diesem Mel-Spektrogramm unter Verwendung eines Vokoders wie WaveNet. Im Vergleich zu traditionellen konglomerativen und statistischen parametrischen Ansätzen leiden neuronale Netzwerke basierte End-to-End Modelle an einer langsamen Inferenzgeschwindigkeit, und die synthetisierte Sprache ist oft nicht robust (d.h., einige Wörter werden übersprungen oder wiederholt) und mangelhaft steuerbar (Steuern der Stimmgeschwindigkeit oder Prosodie).In dieser Arbeit schlagen wir ein neues feedforward Netzwerk auf Basis des Transformers vor, um das Mel-Spektrogramm für TTS parallel zu generieren. Insbesondere extrahieren wir Aufmerksamkeitsausrichtungen von einem encoder-decoder-basierten Lehrmodell zur Vorhersage der Phonemdauer, die von einem Längenregulator verwendet wird, um die Quellphonemsequenz zu erweitern, um mit der Länge der Ziel-Mel-Spektrogrammsequenz übereinzustimmen, wodurch eine parallele Generierung des Mel-Spektrogramms ermöglicht wird. Experimente mit dem LJSpeech-Datensatz zeigen, dass unser paralleles Modell den autoregressiven Modellen hinsichtlich der Sprachqualität entspricht, das Problem des Überspringens und Wiederholens von Wörtern in besonders schwierigen Fällen nahezu beseitigt und die Stimmgeschwindigkeit reibungslos anpassen kann.Von größter Bedeutung ist jedoch, dass unser Modell im Vergleich zum autoregressiven Transformer-TTS die Generierung des Mel-Spektrogramms um das 270-fache beschleunigt und die End-to-End-Sprachsynthese um das 38-fache. Daher nennen wir unser Modell FastSpeech.

FastSpeech: Schnell, robust und steuerbar – Text-zu-Sprache | Neueste Forschungsarbeiten | HyperAI