HyperAIHyperAI

Command Palette

Search for a command to run...

Vocos: Brücke zwischen zeitdomänengestützten und Fouriern-basierten neuronalen Vocoders für die hochwertige Audio-Synthese

Hubert Siuzdak

Zusammenfassung

Neuere Fortschritte in der neuronalen Vocoding werden hauptsächlich durch Generative Adversarial Networks (GANs) im Zeitbereich vorangetrieben. Obwohl diese Herangehensweise wirksam ist, vernachlässigt sie die induktive Voreingenommenheit, die durch Zeit-Frequenz-Darstellungen gegeben ist, was zu redundanten und rechenintensiven Upsampling-Operationen führt. Zeit-Frequenz-Darstellungen basierend auf der Fourier-Transformation stellen eine ansprechende Alternative dar, da sie genauer mit der menschlichen auditorischen Wahrnehmung übereinstimmen und von gut etablierten schnellen Algorithmen für ihre Berechnung profitieren. Dennoch waren die direkte Rekonstruktion komplexwertiger Spektrogramme historisch gesehen problematisch, hauptsächlich aufgrund von Schwierigkeiten bei der Phasenrekonstruktion. Diese Lücke schließt die vorliegende Studie, indem sie Vocos vorstellt – ein neues Modell, das direkt Fourier-Spektralkoeffizienten generiert. Vocos erreicht nicht nur die derzeit beste Audioqualität, wie unsere Evaluierungen zeigen, sondern verbessert auch die Rechen-effizienz erheblich und erzielt eine zehnfache Steigerung der Geschwindigkeit im Vergleich zu etablierten zeitbereichsbasierten neuronalen Vocoding-Ansätzen. Der Quellcode und die Modellgewichte wurden unter https://github.com/gemelo-ai/vocos öffentlich zugänglich gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp