BigVGAN : Un vocodeur neuronal universel entraîné à grande échelle

Malgré les progrès récents observés dans les vocodeurs basés sur les réseaux antagonistes génératifs (GAN), qui génèrent des signaux bruts à partir d’éléments acoustiques, la synthèse d’audio haute fidélité pour un grand nombre de locuteurs dans diverses conditions d’enregistrement reste un défi. Dans ce travail, nous présentons BigVGAN, un vocodeur universel capable de généraliser efficacement à de nombreuses situations hors distribution (out-of-distribution) sans nécessiter de fine-tuning. Nous introduisons une fonction d’activation périodique et une représentation anti-aliasing dans le générateur GAN, ce qui confère un biais inductif souhaitable pour la synthèse audio et améliore significativement la qualité sonore. En outre, nous entraînons notre vocodeur GAN à une échelle inédite, atteignant jusqu’à 112 millions de paramètres, ce qui constitue une première dans la littérature. Nous identifions et résolvons les modes de défaillance propres à l’entraînement à grande échelle des GAN pour la synthèse audio, tout en préservant une sortie haute fidélité sans sur-régularisation. BigVGAN, entraîné uniquement sur des paroles propres (LibriTTS), atteint des performances de pointe dans diverses conditions zéro-shot (hors distribution), incluant des locuteurs inédits, des langues inconnues, des environnements d’enregistrement variés, des voix chantées, de la musique et des sons instrumentaux. Nous mettons à disposition notre code et nos modèles à l’adresse suivante : https://github.com/NVIDIA/BigVGAN