Accélération de la génération de formes d'onde haute fidélité par optimisation par correspondance de flux adversaire

Cet article présente PeriodWave-Turbo, un modèle de génération de signaux acoustiques à haute fidélité et haute efficacité, basé sur une optimisation par correspondance de flux adversarielle. Récemment, les modèles génératifs fondés sur la correspondance de flux conditionnelle (CFM) ont été efficacement appliqués aux tâches de génération de signaux audio, en s'appuyant sur une seule objectif d'estimation de champ vectoriel pendant l'entraînement. Bien que ces modèles soient capables de produire des signaux audio de haute fidélité, ils nécessitent un nombre significativement plus élevé d'étapes d'Équation Différentielle Ordinaire (ODE) par rapport aux modèles basés sur les GAN, qui ne requièrent qu'une seule étape de génération. En outre, les échantillons générés souffrent souvent d'un manque d'informations en haute fréquence, en raison d'une estimation bruitée du champ vectoriel, ce qui compromet la reproduction fiable des composantes hautes fréquences. Pour remédier à cette limitation, nous améliorons les modèles génératifs pré-entraînés basés sur la CFM en intégrant une modification du générateur à pas fixe. Nous utilisons des pertes de reconstruction ainsi que des retours adversariaux afin d'accélérer la génération de signaux audio à haute fidélité. Grâce à l'optimisation par correspondance de flux adversarielle, il suffit de 1 000 étapes de fine-tuning pour atteindre des performances de pointe sur diverses métriques objectives. En outre, nous réduisons considérablement le temps d'inférence, passant de 16 à seulement 2 ou 4 étapes. En outre, en augmentant le nombre de paramètres du noyau de PeriodWave de 29M à 70M afin d'améliorer la généralisation, PeriodWave-Turbo atteint des performances sans précédent, avec un score PESQ (Perceptual Evaluation of Speech Quality) de 4,454 sur le jeu de données LibriTTS. Des échantillons audio, le code source et les points de contrôle seront disponibles à l'adresse suivante : https://github.com/sh-lee-prml/PeriodWave.