HyperAIHyperAI
vor 15 Tagen

BigVGAN: Ein universeller neuronaler Vocoder mit großskaligem Training

Sang-gil Lee, Wei Ping, Boris Ginsburg, Bryan Catanzaro, Sungroh Yoon
BigVGAN: Ein universeller neuronaler Vocoder mit großskaligem Training
Abstract

Trotz der jüngsten Fortschritte bei generativen adversarialen Netzwerken (GAN)-Vokodern, bei denen das Modell Rohwellenformen bedingt auf akustischen Merkmalen erzeugt, bleibt die Synthese hochqualitativer Audioinhalte für eine Vielzahl von Sprechern unter verschiedenen Aufnahmebedingungen herausfordernd. In dieser Arbeit stellen wir BigVGAN vor, einen universellen Vokoder, der sich gut für verschiedene außerhalb der Verteilung liegende Szenarien generalisiert, ohne feinabgestimmt zu werden. Wir führen eine periodische Aktivierungsfunktion und eine anti-aliasing-basierte Darstellung in den GAN-Generator ein, was eine gewünschte induktive Voreingenommenheit für die Audiosynthese ermöglicht und die Audioqualität erheblich verbessert. Zudem trainieren wir unseren GAN-Vokoder in bisher ungekannter Skalierung bis zu 112 Mio. Parametern, was in der Literatur einzigartig ist. Wir identifizieren und behandeln die Ausfallmodi beim großskaligen GAN-Training für Audio, wobei gleichzeitig eine hohe Fidelität der Ausgabe ohne Über-Regularisierung erhalten bleibt. Unser BigVGAN, der ausschließlich auf sauberem Sprachmaterial (LibriTTS) trainiert wurde, erreicht die derzeit beste Leistung bei verschiedenen Zero-Shot-(außerhalb der Verteilung liegenden) Bedingungen, einschließlich bisher unbekannter Sprecher, Sprachen, Aufnahmeumgebungen, Gesangsstimmen, Musik und instrumentaler Audio. Wir stellen unseren Code und das Modell unter folgender Adresse frei: https://github.com/NVIDIA/BigVGAN

BigVGAN: Ein universeller neuronaler Vocoder mit großskaligem Training | Neueste Forschungsarbeiten | HyperAI