HyperAIHyperAI

Command Palette

Search for a command to run...

Grad-TTS: Ein Diffusionsprobabilistisches Modell für Text-zu-Sprache

Vadim Popov Ivan Vovk Vladimir Gogoryan Tasnima Sadekova Mikhail Kudinov

Zusammenfassung

Kürzlich haben Denoising-Diffusions-Wahrscheinlichkeitsmodelle und generative Score-Matching-Verfahren ein hohes Potenzial bei der Modellierung komplexer Datenverteilungen gezeigt, wobei die stochastische Analysis einen einheitlichen Blickwinkel auf diese Techniken bereitgestellt hat und flexible Inferenzverfahren ermöglicht. In diesem Paper stellen wir Grad-TTS vor, ein neuartiges Text-zu-Sprache-Modell mit scorebasiertem Decoder, das Mel-Spektrogramme erzeugt, indem es Rauschen schrittweise transformiert, das von einem Encoder vorhergesagt und mittels Monotonic Alignment Search mit der Texteingabe synchronisiert wird. Der Rahmen stochastischer Differentialgleichungen ermöglicht es uns, herkömmliche Diffusions-Wahrscheinlichkeitsmodelle auf den Fall der Rekonstruktion von Daten aus Rauschen mit unterschiedlichen Parametern zu verallgemeinern und die Rekonstruktion durch explizite Steuerung des Kompromisses zwischen Klangqualität und Inferenzgeschwindigkeit flexibel zu gestalten. Subjektive menschliche Bewertungen zeigen, dass Grad-TTS hinsichtlich des Mean Opinion Score mit aktuellen State-of-the-Art-Text-zu-Sprache-Ansätzen konkurrieren kann. Den Quellcode werden wir in Kürze öffentlich zugänglich machen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp