WaveGlow: Ein flussbasierendes generatives Netzwerk für Sprachsynthese

In dieser Arbeit schlagen wir WaveGlow vor: ein flussbasiertes Netzwerk, das in der Lage ist, aus Mel-Spektrogrammen hochwertige Sprache zu generieren. WaveGlow kombiniert Erkenntnisse aus Glow und WaveNet, um eine schnelle, effiziente und hochwertige Audio-Synthese zu ermöglichen, ohne auf autoregressive Modelle angewiesen zu sein. Die Implementierung von WaveGlow erfolgt mit nur einem einzigen Netzwerk, das mithilfe einer einzigen Kostenfunktion trainiert wird: die Maximierung der Wahrscheinlichkeit der Trainingsdaten, was den Trainingsprozess einfach und stabil macht. Unsere PyTorch-Implementierung erzeugt Audiosamples mit einer Rate von mehr als 500 kHz auf einem NVIDIA V100 GPU. Mittlere Meinungswerte (Mean Opinion Scores) zeigen, dass es eine Audioqualität bietet, die mit der besten öffentlich verfügbaren WaveNet-Implementierung vergleichbar ist. Der gesamte Code wird online öffentlich zugänglich gemacht.