vor 6 Monaten

Zusammenfassung

In mehreren jüngeren Arbeiten zur Sprachsynthese wurden generative adversarische Netzwerke (GANs) eingesetzt, um rohe Wellenformen zu erzeugen. Obwohl diese Ansätze die Sampling-Effizienz und den Speicherverbrauch verbessern, erreichen ihre Sample-Qualität noch nicht das Niveau von autoregressiven und flussbasierten Generativmodellen. In dieser Arbeit stellen wir HiFi-GAN vor, das sowohl eine effiziente als auch hochfidelitätsorientierte Sprachsynthese ermöglicht. Da Sprachaudio aus sinusförmigen Signalen mit verschiedenen Perioden besteht, zeigen wir, dass die Modellierung periodischer Muster eines Audios entscheidend für die Verbesserung der Sample-Qualität ist. Eine subjektive menschliche Bewertung (Mean Opinion Score, MOS) auf einem Datensatz mit einer einzigen Sprecherin zeigt, dass unsere Methode eine Qualität nahe der menschlichen Wahrnehmung erreicht, während sie hochfidelitätsorientierte Audio mit 22,05 kHz 167,9-mal schneller als Echtzeit auf einer einzigen V100-GPU erzeugt. Wir demonstrieren zudem die Allgemeingültigkeit von HiFi-GAN für die Mel-Spektrogramminversion unbekannter Sprecher sowie für end-to-end-Sprachsynthese. Schließlich erzeugt eine kompakte Version von HiFi-GAN auf der CPU mit vergleichbarer Qualität zu einem autoregressiven Gegenstück die Samples 13,4-mal schneller als Echtzeit.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Text-to-Speech

Synthese

Faltungsneuronales Netzwerk

Jungil Kong Jaehyeon Kim Jaekyoung Bae

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Text-to-Speech

Synthese

Faltungsneuronales Netzwerk

Jungil Kong Jaehyeon Kim Jaekyoung Bae

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

HiFi-GAN: Generative Adversarial Networks für effiziente und hochfidele Sprachsynthese

Jungil Kong Jaehyeon Kim Jaekyoung Bae

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

HiFi-GAN: Generative Adversarial Networks für effiziente und hochfidele Sprachsynthese

Jungil Kong Jaehyeon Kim Jaekyoung Bae

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

HiFi-GAN: Generative Adversarial Networks für effiziente und hochfidele Sprachsynthese

Jungil Kong Jaehyeon Kim Jaekyoung Bae

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters