HyperAIHyperAI
il y a 11 jours

PeriodWave : Correspondance de flux multi-périodique pour la génération de signaux haute fidélité

Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee
PeriodWave : Correspondance de flux multi-périodique pour la génération de signaux haute fidélité
Résumé

Récemment, les tâches universelles de génération de formes d’onde ont été étudiées dans divers scénarios hors distribution. Bien que les méthodes basées sur les GAN aient démontré leur efficacité en matière de génération rapide de formes d’onde, elles sont sensibles aux écarts entre entraînement et inférence, notamment dans les chaînes à deux étapes comme la synthèse vocale texte-à-parole. Par ailleurs, les modèles basés sur la diffusion ont fait preuve d’une performance générative remarquable dans d’autres domaines ; toutefois, leur utilisation reste marginale dans les tâches de génération de formes d’onde en raison de leur vitesse d’inférence lente. En outre, aucun architecture de générateur n’a encore permis d’extraire explicitement les caractéristiques périodiques naturelles présentes dans les signaux de forme d’onde à haute résolution. Dans cet article, nous proposons PeriodWave, un nouveau modèle universel de génération de formes d’onde. Premièrement, nous introduisons un estimateur de correspondance de flux sensible à la période, capable de capturer les caractéristiques périodiques des signaux de forme d’onde lors de l’estimation des champs vectoriels. Ensuite, nous utilisons un estimateur multi-période évitant les chevauchements pour capturer différentes caractéristiques périodiques des signaux. Bien que l’augmentation du nombre de périodes améliore significativement les performances, cela entraîne une augmentation importante de la charge computationnelle. Pour atténuer ce problème, nous proposons également un estimateur universel conditionnel à une seule période, permettant une inférence en parallèle par lots périodiques. Par ailleurs, nous exploitons la transformation en ondelettes discrètes afin de séparer sans perte les informations fréquentielles des signaux de forme d’onde, favorisant ainsi une modélisation de haute fréquence, et introduisons FreeU pour réduire le bruit de haute fréquence lors de la génération. Les résultats expérimentaux montrent que notre modèle surpasser les modèles précédents tant dans la reconstruction de spectrogrammes Mel que dans les tâches de synthèse vocale texte-à-parole. Le code source sera disponible à l’adresse suivante : https://github.com/sh-lee-prml/PeriodWave.

PeriodWave : Correspondance de flux multi-périodique pour la génération de signaux haute fidélité | Articles de recherche récents | HyperAI