HyperAIHyperAI
vor 16 Tagen

HiFi-GAN: Generative Adversarial Networks für effiziente und hochfidele Sprachsynthese

Jungil Kong, Jaehyeon Kim, Jaekyoung Bae
HiFi-GAN: Generative Adversarial Networks für effiziente und hochfidele Sprachsynthese
Abstract

In mehreren jüngeren Arbeiten zur Sprachsynthese wurden generative adversarische Netzwerke (GANs) eingesetzt, um rohe Wellenformen zu erzeugen. Obwohl diese Ansätze die Sampling-Effizienz und den Speicherverbrauch verbessern, erreichen ihre Sample-Qualität noch nicht das Niveau von autoregressiven und flussbasierten Generativmodellen. In dieser Arbeit stellen wir HiFi-GAN vor, das sowohl eine effiziente als auch hochfidelitätsorientierte Sprachsynthese ermöglicht. Da Sprachaudio aus sinusförmigen Signalen mit verschiedenen Perioden besteht, zeigen wir, dass die Modellierung periodischer Muster eines Audios entscheidend für die Verbesserung der Sample-Qualität ist. Eine subjektive menschliche Bewertung (Mean Opinion Score, MOS) auf einem Datensatz mit einer einzigen Sprecherin zeigt, dass unsere Methode eine Qualität nahe der menschlichen Wahrnehmung erreicht, während sie hochfidelitätsorientierte Audio mit 22,05 kHz 167,9-mal schneller als Echtzeit auf einer einzigen V100-GPU erzeugt. Wir demonstrieren zudem die Allgemeingültigkeit von HiFi-GAN für die Mel-Spektrogramminversion unbekannter Sprecher sowie für end-to-end-Sprachsynthese. Schließlich erzeugt eine kompakte Version von HiFi-GAN auf der CPU mit vergleichbarer Qualität zu einem autoregressiven Gegenstück die Samples 13,4-mal schneller als Echtzeit.

HiFi-GAN: Generative Adversarial Networks für effiziente und hochfidele Sprachsynthese | Neueste Forschungsarbeiten | HyperAI