vor 6 Monaten

Zusammenfassung

Neuere Fortschritte in der neuronalen Vocoding werden hauptsächlich durch Generative Adversarial Networks (GANs) im Zeitbereich vorangetrieben. Obwohl diese Herangehensweise wirksam ist, vernachlässigt sie die induktive Voreingenommenheit, die durch Zeit-Frequenz-Darstellungen gegeben ist, was zu redundanten und rechenintensiven Upsampling-Operationen führt. Zeit-Frequenz-Darstellungen basierend auf der Fourier-Transformation stellen eine ansprechende Alternative dar, da sie genauer mit der menschlichen auditorischen Wahrnehmung übereinstimmen und von gut etablierten schnellen Algorithmen für ihre Berechnung profitieren. Dennoch waren die direkte Rekonstruktion komplexwertiger Spektrogramme historisch gesehen problematisch, hauptsächlich aufgrund von Schwierigkeiten bei der Phasenrekonstruktion. Diese Lücke schließt die vorliegende Studie, indem sie Vocos vorstellt – ein neues Modell, das direkt Fourier-Spektralkoeffizienten generiert. Vocos erreicht nicht nur die derzeit beste Audioqualität, wie unsere Evaluierungen zeigen, sondern verbessert auch die Rechen-effizienz erheblich und erzielt eine zehnfache Steigerung der Geschwindigkeit im Vergleich zu etablierten zeitbereichsbasierten neuronalen Vocoding-Ansätzen. Der Quellcode und die Modellgewichte wurden unter https://github.com/gemelo-ai/vocos öffentlich zugänglich gemacht.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Synthese

Audio- Und Sprachverarbeitung

Hubert Siuzdak

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Synthese

Audio- Und Sprachverarbeitung

Hubert Siuzdak

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Vocos: Brücke zwischen zeitdomänengestützten und Fouriern-basierten neuronalen Vocoders für die hochwertige Audio-Synthese

Hubert Siuzdak

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Vocos: Brücke zwischen zeitdomänengestützten und Fouriern-basierten neuronalen Vocoders für die hochwertige Audio-Synthese

Hubert Siuzdak

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Vocos: Brücke zwischen zeitdomänengestützten und Fouriern-basierten neuronalen Vocoders für die hochwertige Audio-Synthese

Hubert Siuzdak

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters