HyperAIHyperAI

Command Palette

Search for a command to run...

BigVSAN : Amélioration des vocodeurs neuronaux basés sur GAN grâce au Slicing Adversarial Network

Takashi Shibuya Yuhta Takida Yuki Mitsufuji

Résumé

Les vocodeurs basés sur les réseaux antagonistes génératifs (GAN) ont fait l’objet d’études intensives, car ils permettent de synthétiser des signaux audio de haute fidélité à une vitesse supérieure à celle en temps réel. Toutefois, il a été rapporté que la plupart des GAN peinent à trouver la projection optimale pour distinguer les données réelles des données falsifiées dans l’espace des caractéristiques. Dans la littérature, il a été démontré que le modèle d’apprentissage amélioré appelé Slicing Adversarial Network (SAN), un cadre d’entraînement GAN capable de trouver cette projection optimale, s’avère efficace dans les tâches de génération d’images. Dans cet article, nous étudions l’efficacité du SAN dans le contexte de la synthèse vocale. À cette fin, nous proposons une méthode pour adapter le GAN à moindres carrés, largement utilisé par les vocodeurs basés sur les GAN, afin que ses fonctions de perte respectent les exigences du SAN. À travers nos expériences, nous montrons que le SAN peut améliorer les performances des vocodeurs basés sur les GAN, y compris celles de BigVGAN, avec des modifications mineures. Notre code est disponible à l’adresse suivante : https://github.com/sony/bigvsan.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
BigVSAN : Amélioration des vocodeurs neuronaux basés sur GAN grâce au Slicing Adversarial Network | Articles | HyperAI