HyperAIHyperAI
vor 11 Tagen

Grad-TTS: Ein Diffusionsprobabilistisches Modell für Text-zu-Sprache

Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Kudinov
Grad-TTS: Ein Diffusionsprobabilistisches Modell für Text-zu-Sprache
Abstract

Kürzlich haben Denoising-Diffusions-Wahrscheinlichkeitsmodelle und generative Score-Matching-Verfahren ein hohes Potenzial bei der Modellierung komplexer Datenverteilungen gezeigt, wobei die stochastische Analysis einen einheitlichen Blickwinkel auf diese Techniken bereitgestellt hat und flexible Inferenzverfahren ermöglicht. In diesem Paper stellen wir Grad-TTS vor, ein neuartiges Text-zu-Sprache-Modell mit scorebasiertem Decoder, das Mel-Spektrogramme erzeugt, indem es Rauschen schrittweise transformiert, das von einem Encoder vorhergesagt und mittels Monotonic Alignment Search mit der Texteingabe synchronisiert wird. Der Rahmen stochastischer Differentialgleichungen ermöglicht es uns, herkömmliche Diffusions-Wahrscheinlichkeitsmodelle auf den Fall der Rekonstruktion von Daten aus Rauschen mit unterschiedlichen Parametern zu verallgemeinern und die Rekonstruktion durch explizite Steuerung des Kompromisses zwischen Klangqualität und Inferenzgeschwindigkeit flexibel zu gestalten. Subjektive menschliche Bewertungen zeigen, dass Grad-TTS hinsichtlich des Mean Opinion Score mit aktuellen State-of-the-Art-Text-zu-Sprache-Ansätzen konkurrieren kann. Den Quellcode werden wir in Kürze öffentlich zugänglich machen.

Grad-TTS: Ein Diffusionsprobabilistisches Modell für Text-zu-Sprache | Neueste Forschungsarbeiten | HyperAI