HyperAIHyperAI

Command Palette

Search for a command to run...

WaveFlow : un modèle basé sur les flux compact pour audio brute

Wei Ping Kainan Peng Kexin Zhao Zhao Song

Résumé

Dans ce travail, nous proposons WaveFlow, un modèle génératif à flux à faible empreinte pour des signaux audio bruts, entraîné directement par maximum de vraisemblance. Il modélise la structure à longue portée d’un signal unidimensionnel grâce à une architecture convolutive 2-D à dilatation, tout en capturant les variations locales à l’aide de fonctions autoregressives expressives. WaveFlow offre une vue unifiée des modèles fondés sur la vraisemblance pour les données unidimensionnelles, incluant WaveNet et WaveGlow comme cas particuliers. Il génère des paroles de haute fidélité comparables à WaveNet, tout en étant plusieurs ordres de grandeur plus rapide à la synthèse, puisqu’il nécessite uniquement quelques étapes séquentielles pour produire des signaux très longs comprenant des centaines de milliers d’échantillons temporels. En outre, il permet de réduire significativement l’écart de performance en termes de vraisemblance qui existait auparavant entre les modèles autoregressifs et les modèles à flux pour une synthèse efficace. Enfin, notre modèle WaveFlow à faible empreinte ne comporte que 5,91 millions de paramètres, soit 15 fois moins que WaveGlow. Il peut générer des audio de haute fidélité à 22,05 kHz à une vitesse 42,6 fois supérieure au temps réel (à 939,3 kHz) sur une GPU V100, sans recourir à des noyaux d’inférence spécifiquement optimisés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp