il y a 11 jours

WaveFlow : un modèle basé sur les flux compact pour audio brute

Wei Ping, Kainan Peng, Kexin Zhao, Zhao Song

Résumé

Dans ce travail, nous proposons WaveFlow, un modèle génératif à flux à faible empreinte pour des signaux audio bruts, entraîné directement par maximum de vraisemblance. Il modélise la structure à longue portée d’un signal unidimensionnel grâce à une architecture convolutive 2-D à dilatation, tout en capturant les variations locales à l’aide de fonctions autoregressives expressives. WaveFlow offre une vue unifiée des modèles fondés sur la vraisemblance pour les données unidimensionnelles, incluant WaveNet et WaveGlow comme cas particuliers. Il génère des paroles de haute fidélité comparables à WaveNet, tout en étant plusieurs ordres de grandeur plus rapide à la synthèse, puisqu’il nécessite uniquement quelques étapes séquentielles pour produire des signaux très longs comprenant des centaines de milliers d’échantillons temporels. En outre, il permet de réduire significativement l’écart de performance en termes de vraisemblance qui existait auparavant entre les modèles autoregressifs et les modèles à flux pour une synthèse efficace. Enfin, notre modèle WaveFlow à faible empreinte ne comporte que 5,91 millions de paramètres, soit 15 fois moins que WaveGlow. Il peut générer des audio de haute fidélité à 22,05 kHz à une vitesse 42,6 fois supérieure au temps réel (à 939,3 kHz) sur une GPU V100, sans recourir à des noyaux d’inférence spécifiquement optimisés.