HyperAIHyperAI

Command Palette

Search for a command to run...

WaveGlow: Ein flussbasierendes generatives Netzwerk für Sprachsynthese

A. van den Oord S. Dieleman H. Zen K. Simonyan O. Vinyals A. Graves N. Kalchbrenner

Zusammenfassung

In dieser Arbeit schlagen wir WaveGlow vor: ein flussbasiertes Netzwerk, das in der Lage ist, aus Mel-Spektrogrammen hochwertige Sprache zu generieren. WaveGlow kombiniert Erkenntnisse aus Glow und WaveNet, um eine schnelle, effiziente und hochwertige Audio-Synthese zu ermöglichen, ohne auf autoregressive Modelle angewiesen zu sein. Die Implementierung von WaveGlow erfolgt mit nur einem einzigen Netzwerk, das mithilfe einer einzigen Kostenfunktion trainiert wird: die Maximierung der Wahrscheinlichkeit der Trainingsdaten, was den Trainingsprozess einfach und stabil macht. Unsere PyTorch-Implementierung erzeugt Audiosamples mit einer Rate von mehr als 500 kHz auf einem NVIDIA V100 GPU. Mittlere Meinungswerte (Mean Opinion Scores) zeigen, dass es eine Audioqualität bietet, die mit der besten öffentlich verfügbaren WaveNet-Implementierung vergleichbar ist. Der gesamte Code wird online öffentlich zugänglich gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp