HyperAIHyperAI
vor 11 Tagen

FastDiff: Ein schnelles bedingtes Diffusionsmodell für Sprachsynthese hoher Qualität

Rongjie Huang, Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu, Yi Ren, Zhou Zhao
FastDiff: Ein schnelles bedingtes Diffusionsmodell für Sprachsynthese hoher Qualität
Abstract

Denoising Diffusion Probabilistic Models (DDPMs) haben in jüngster Zeit herausragende Leistungen in zahlreichen generativen Aufgaben erzielt. Allerdings behindert der inhärente iterativen Sampling-Prozess ihre Anwendung in der Sprachsynthese. In dieser Arbeit wird FastDiff vorgestellt, ein schnelles bedingtes Diffusionsmodell für hochwertige Sprachsynthese. FastDiff nutzt eine Kaskade von zeitbewussten, ortsaufgelösten Faltungen mit unterschiedlichen Rezeptivfeldmustern, um langfristige zeitliche Abhängigkeiten effizient unter adaptiven Bedingungen zu modellieren. Zudem wird ein Noise-Schedule-Vorhersager eingesetzt, um die Anzahl der Sampling-Schritte zu reduzieren, ohne die Generationsqualität zu beeinträchtigen. Auf Basis von FastDiff entwerfen wir einen end-to-end Text-zu-Sprache-Synthesizer, FastDiff-TTS, der hochfidele Sprachwellenformen ohne jegliche Zwischenmerkmale (z. B. Mel-Spektrogramme) erzeugt. Unsere Evaluation von FastDiff zeigt state-of-the-art Ergebnisse mit Sprachproben höherer Qualität (MOS 4,28). Zudem ermöglicht FastDiff eine Sampling-Geschwindigkeit, die 58-mal schneller als Echtzeit auf einer V100-GPU ist, wodurch Diffusionsmodelle erstmals praktisch für die Bereitstellung in der Sprachsynthese geeignet werden. Wir zeigen zudem, dass FastDiff gut auf die Mel-Spektrogramminversion bisher unbekannter Sprecher generalisiert, und dass FastDiff-TTS andere konkurrierende Methoden in der end-to-end Text-zu-Sprache-Synthese übertrifft. Audio-Beispiele sind unter \url{https://FastDiff.github.io/} verfügbar.

FastDiff: Ein schnelles bedingtes Diffusionsmodell für Sprachsynthese hoher Qualität | Neueste Forschungsarbeiten | HyperAI