DiffWave : un modèle de diffusion polyvalent pour la synthèse audio

Dans ce travail, nous proposons DiffWave, un modèle probabiliste par diffusion polyvalent pour la génération de signaux acoustiques conditionnels et non conditionnels. Le modèle est non-autorégressif et transforme un signal de bruit blanc en un signal structuré grâce à une chaîne de Markov comportant un nombre constant d’étapes lors de la synthèse. Il est entraîné efficacement en optimisant une variante de la borne variationnelle sur la vraisemblance des données. DiffWave produit des audio de haute fidélité dans diverses tâches de génération de signaux acoustiques, notamment la vocalisation neuronale conditionnée sur un spectrogramme mel, la génération conditionnée par classe, ainsi que la génération non conditionnelle. Nous démontrons que DiffWave atteint des performances comparables à celles d’un vocodeur WaveNet performant en termes de qualité vocale (note moyenne d’opinion, MOS : 4,44 contre 4,43), tout en étant nettement plus rapide à synthétiser, d’un ordre de grandeur supérieur. En particulier, il surpasse significativement les modèles autorégressifs et basés sur les GAN dans la tâche exigeante de génération non conditionnelle, tant en qualité audio qu’en diversité des échantillons, selon diverses évaluations automatiques et humaines.