Vocos: Brücke zwischen zeitdomänengestützten und Fouriern-basierten neuronalen Vocoders für die hochwertige Audio-Synthese

Neuere Fortschritte in der neuronalen Vocoding werden hauptsächlich durch Generative Adversarial Networks (GANs) im Zeitbereich vorangetrieben. Obwohl diese Herangehensweise wirksam ist, vernachlässigt sie die induktive Voreingenommenheit, die durch Zeit-Frequenz-Darstellungen gegeben ist, was zu redundanten und rechenintensiven Upsampling-Operationen führt. Zeit-Frequenz-Darstellungen basierend auf der Fourier-Transformation stellen eine ansprechende Alternative dar, da sie genauer mit der menschlichen auditorischen Wahrnehmung übereinstimmen und von gut etablierten schnellen Algorithmen für ihre Berechnung profitieren. Dennoch waren die direkte Rekonstruktion komplexwertiger Spektrogramme historisch gesehen problematisch, hauptsächlich aufgrund von Schwierigkeiten bei der Phasenrekonstruktion. Diese Lücke schließt die vorliegende Studie, indem sie Vocos vorstellt – ein neues Modell, das direkt Fourier-Spektralkoeffizienten generiert. Vocos erreicht nicht nur die derzeit beste Audioqualität, wie unsere Evaluierungen zeigen, sondern verbessert auch die Rechen-effizienz erheblich und erzielt eine zehnfache Steigerung der Geschwindigkeit im Vergleich zu etablierten zeitbereichsbasierten neuronalen Vocoding-Ansätzen. Der Quellcode und die Modellgewichte wurden unter https://github.com/gemelo-ai/vocos öffentlich zugänglich gemacht.