HyperAIHyperAI

Command Palette

Search for a command to run...

BigVGAN : Un vocodeur neuronal universel entraîné à grande échelle

Sang-gil Lee Wei Ping Boris Ginsburg Bryan Catanzaro Sungroh Yoon

Résumé

Malgré les progrès récents observés dans les vocodeurs basés sur les réseaux antagonistes génératifs (GAN), qui génèrent des signaux bruts à partir d’éléments acoustiques, la synthèse d’audio haute fidélité pour un grand nombre de locuteurs dans diverses conditions d’enregistrement reste un défi. Dans ce travail, nous présentons BigVGAN, un vocodeur universel capable de généraliser efficacement à de nombreuses situations hors distribution (out-of-distribution) sans nécessiter de fine-tuning. Nous introduisons une fonction d’activation périodique et une représentation anti-aliasing dans le générateur GAN, ce qui confère un biais inductif souhaitable pour la synthèse audio et améliore significativement la qualité sonore. En outre, nous entraînons notre vocodeur GAN à une échelle inédite, atteignant jusqu’à 112 millions de paramètres, ce qui constitue une première dans la littérature. Nous identifions et résolvons les modes de défaillance propres à l’entraînement à grande échelle des GAN pour la synthèse audio, tout en préservant une sortie haute fidélité sans sur-régularisation. BigVGAN, entraîné uniquement sur des paroles propres (LibriTTS), atteint des performances de pointe dans diverses conditions zéro-shot (hors distribution), incluant des locuteurs inédits, des langues inconnues, des environnements d’enregistrement variés, des voix chantées, de la musique et des sons instrumentaux. Nous mettons à disposition notre code et nos modèles à l’adresse suivante : https://github.com/NVIDIA/BigVGAN


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp