HiFi-GAN: Generative Adversarial Networks für effiziente und hochfidele Sprachsynthese

In mehreren jüngeren Arbeiten zur Sprachsynthese wurden generative adversarische Netzwerke (GANs) eingesetzt, um rohe Wellenformen zu erzeugen. Obwohl diese Ansätze die Sampling-Effizienz und den Speicherverbrauch verbessern, erreichen ihre Sample-Qualität noch nicht das Niveau von autoregressiven und flussbasierten Generativmodellen. In dieser Arbeit stellen wir HiFi-GAN vor, das sowohl eine effiziente als auch hochfidelitätsorientierte Sprachsynthese ermöglicht. Da Sprachaudio aus sinusförmigen Signalen mit verschiedenen Perioden besteht, zeigen wir, dass die Modellierung periodischer Muster eines Audios entscheidend für die Verbesserung der Sample-Qualität ist. Eine subjektive menschliche Bewertung (Mean Opinion Score, MOS) auf einem Datensatz mit einer einzigen Sprecherin zeigt, dass unsere Methode eine Qualität nahe der menschlichen Wahrnehmung erreicht, während sie hochfidelitätsorientierte Audio mit 22,05 kHz 167,9-mal schneller als Echtzeit auf einer einzigen V100-GPU erzeugt. Wir demonstrieren zudem die Allgemeingültigkeit von HiFi-GAN für die Mel-Spektrogramminversion unbekannter Sprecher sowie für end-to-end-Sprachsynthese. Schließlich erzeugt eine kompakte Version von HiFi-GAN auf der CPU mit vergleichbarer Qualität zu einem autoregressiven Gegenstück die Samples 13,4-mal schneller als Echtzeit.