il y a 6 mois

Résumé

Malgré les progrès récents observés dans les vocodeurs basés sur les réseaux antagonistes génératifs (GAN), qui génèrent des signaux bruts à partir d’éléments acoustiques, la synthèse d’audio haute fidélité pour un grand nombre de locuteurs dans diverses conditions d’enregistrement reste un défi. Dans ce travail, nous présentons BigVGAN, un vocodeur universel capable de généraliser efficacement à de nombreuses situations hors distribution (out-of-distribution) sans nécessiter de fine-tuning. Nous introduisons une fonction d’activation périodique et une représentation anti-aliasing dans le générateur GAN, ce qui confère un biais inductif souhaitable pour la synthèse audio et améliore significativement la qualité sonore. En outre, nous entraînons notre vocodeur GAN à une échelle inédite, atteignant jusqu’à 112 millions de paramètres, ce qui constitue une première dans la littérature. Nous identifions et résolvons les modes de défaillance propres à l’entraînement à grande échelle des GAN pour la synthèse audio, tout en préservant une sortie haute fidélité sans sur-régularisation. BigVGAN, entraîné uniquement sur des paroles propres (LibriTTS), atteint des performances de pointe dans diverses conditions zéro-shot (hors distribution), incluant des locuteurs inédits, des langues inconnues, des environnements d’enregistrement variés, des voix chantées, de la musique et des sons instrumentaux. Nous mettons à disposition notre code et nos modèles à l’adresse suivante : https://github.com/NVIDIA/BigVGAN

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Text-to-Speech

Synthèse

Apprentissage Profond

Sang-gil Lee Wei Ping Boris Ginsburg Bryan Catanzaro Sungroh Yoon

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Text-to-Speech

Synthèse

Apprentissage Profond

Sang-gil Lee Wei Ping Boris Ginsburg Bryan Catanzaro Sungroh Yoon

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

BigVGAN : Un vocodeur neuronal universel entraîné à grande échelle

Sang-gil Lee Wei Ping Boris Ginsburg Bryan Catanzaro Sungroh Yoon

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

BigVGAN : Un vocodeur neuronal universel entraîné à grande échelle

Sang-gil Lee Wei Ping Boris Ginsburg Bryan Catanzaro Sungroh Yoon

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

BigVGAN : Un vocodeur neuronal universel entraîné à grande échelle

Sang-gil Lee Wei Ping Boris Ginsburg Bryan Catanzaro Sungroh Yoon

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters