HyperAIHyperAI
vor 16 Tagen

FastSpeech 2: Schnell und hochwertig end-to-end Text-zu-Sprache

Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu
FastSpeech 2: Schnell und hochwertig end-to-end Text-zu-Sprache
Abstract

Nicht-autoregressive Text-to-Speech-(TTS)-Modelle wie FastSpeech können Sprache erheblich schneller synthetisieren als frühere autoregressive Modelle, wobei die Qualität vergleichbar bleibt. Die Ausbildung des FastSpeech-Modells beruht auf einem autoregressiven Lehrmodell zur Dauerprognose (um zusätzliche Informationen als Eingabe bereitzustellen) sowie auf Wissensvermittlung (Knowledge Distillation, um die Datenverteilung im Ausgang zu vereinfachen), was das sogenannte One-to-Many-Problem (d. h. mehrere Sprachvariationen entsprechen demselben Text) in TTS entschärfen kann. FastSpeech weist jedoch mehrere Nachteile auf: 1) Der Lehrer-Schüler-Verfahrensablauf ist komplex und zeitaufwendig; 2) die aus dem Lehrmodell extrahierten Dauern sind nicht ausreichend genau, und die aus dem Lehrmodell abgeleiteten Ziel-Mel-Spektrogramme leiden aufgrund der Datenvereinfachung unter Informationsverlust, was die Sprachqualität einschränkt. In diesem Artikel stellen wir FastSpeech 2 vor, das die Probleme von FastSpeech adressiert und das One-to-Many-Problem in TTS besser löst, indem es 1) das Modell direkt mit den Ground-Truth-Zielen statt mit den vereinfachten Ausgaben des Lehrmodells trainiert, und 2) zusätzliche Variationsinformationen der Sprache (z. B. Tonhöhe, Energie und genauere Dauern) als bedingte Eingaben einbezieht. Konkret extrahieren wir Dauer, Tonhöhe und Energie direkt aus dem Sprachsignal und verwenden sie als bedingte Eingaben während des Trainings; im Inferenzprozess werden stattdessen vorhergesagte Werte eingesetzt. Darüber hinaus entwickeln wir FastSpeech 2s, den ersten Versuch, direkt und parallel aus Text eine Sprachwellenform zu generieren, wodurch die Vorteile einer vollständig end-to-end-Inferenz genutzt werden können. Experimentelle Ergebnisse zeigen, dass 1) FastSpeech 2 eine dreifach höhere Trainingsgeschwindigkeit im Vergleich zu FastSpeech erreicht, während FastSpeech 2s sogar noch schnellere Inferenzzeiten aufweist; 2) FastSpeech 2 und FastSpeech 2s die Sprachqualität von FastSpeech übertreffen, wobei FastSpeech 2 sogar autoregressive Modelle übertreffen kann. Audiomuster sind unter https://speechresearch.github.io/fastspeech2/ verfügbar.

FastSpeech 2: Schnell und hochwertig end-to-end Text-zu-Sprache | Neueste Forschungsarbeiten | HyperAI