BigVSAN : Amélioration des vocodeurs neuronaux basés sur GAN grâce au Slicing Adversarial Network

Les vocodeurs basés sur les réseaux antagonistes génératifs (GAN) ont fait l’objet d’études intensives, car ils permettent de synthétiser des signaux audio de haute fidélité à une vitesse supérieure à celle en temps réel. Toutefois, il a été rapporté que la plupart des GAN peinent à trouver la projection optimale pour distinguer les données réelles des données falsifiées dans l’espace des caractéristiques. Dans la littérature, il a été démontré que le modèle d’apprentissage amélioré appelé Slicing Adversarial Network (SAN), un cadre d’entraînement GAN capable de trouver cette projection optimale, s’avère efficace dans les tâches de génération d’images. Dans cet article, nous étudions l’efficacité du SAN dans le contexte de la synthèse vocale. À cette fin, nous proposons une méthode pour adapter le GAN à moindres carrés, largement utilisé par les vocodeurs basés sur les GAN, afin que ses fonctions de perte respectent les exigences du SAN. À travers nos expériences, nous montrons que le SAN peut améliorer les performances des vocodeurs basés sur les GAN, y compris celles de BigVGAN, avec des modifications mineures. Notre code est disponible à l’adresse suivante : https://github.com/sony/bigvsan.