BDDM : Modèles de diffusion débruitants bilatéraux pour une synthèse vocale rapide et de haute qualité

Les modèles de diffusion probabilistes (DPM) et leurs extensions se sont imposés comme des modèles génératifs compétitifs, tout en faisant face à des défis liés à l’échantillonnage efficace. Nous proposons un nouveau modèle de diffusion débruitant bilatéral (BDDM), qui paramètre à la fois les processus direct et inverse à l’aide d’un réseau d’horaires et d’un réseau de score, permettant une entraînement via une nouvelle fonction objective bilatérale. Nous montrons que cette nouvelle fonction objective substitutrice permet d’obtenir une borne inférieure de la vraisemblance marginale logaritmique plus serrée que celle obtenue avec une fonction objective conventionnelle. Nous constatons également que le BDDM permet d’hériter des paramètres pré-entraînés du réseau de score provenant de n’importe quel DPM, ce qui permet une apprentissage rapide et stable du réseau d’horaires, ainsi qu’une optimisation efficace du plan de bruit pour l’échantillonnage. Nos expériences démontrent que les BDDM peuvent générer des échantillons audio de haute fidélité en seulement trois étapes d’échantillonnage. En outre, par rapport aux autres vocodeurs neuronaux basés sur la diffusion d’avant-garde, les BDDM produisent des échantillons de qualité comparable ou supérieure, indiscernables du discours humain, notamment avec seulement sept étapes d’échantillonnage (143 fois plus rapide que WaveGrad et 28,6 fois plus rapide que DiffWave). Nous mettons à disposition notre code à l’adresse suivante : https://github.com/tencent-ailab/bddm.