il y a 17 jours

SE-MelGAN -- Amélioration Rapide de la Parole Indépendante du Locuteur

Luka Chkhetiani, Levan Bejanidze

Résumé

Les avancées récentes dans le domaine des réseaux antagonistes génératifs (GAN) appliqués à la synthèse vocale [3],[2] ont démontré qu’il est possible d’entraîner des GAN [8] de manière fiable afin de générer des ondes sonores de haute qualité à partir de mélo-spectrogrammes. Nous proposons qu’il est possible de transférer la robustesse de MelGAN [3] dans l’apprentissage des caractéristiques vocales vers le domaine du renforcement vocal et de la réduction du bruit, sans nécessiter de modification du modèle. La méthode proposée s’applique de manière généralisée à des jeux de données vocales multi-parleurs et parvient à gérer efficacement des bruits de fond inconnus lors de l’inférence. En outre, nous montrons qu’en augmentant la taille du batch pour cette approche particulière, non seulement les performances vocales s’améliorent, mais aussi la généralisation sur les jeux de données multi-parleurs devient plus aisée, tout en accélérant la convergence. Enfin, cette méthode surpasser les approches GAN précédentes de pointe en renforcement vocal, telles que SEGAN [5], sur deux dimensions : 1. la qualité ; 2. la vitesse. La méthode proposée fonctionne à plus de 100 fois la vitesse en temps réel sur GPU, et à plus de 2 fois la vitesse en temps réel sur CPU, sans aucune optimisation matérielle, atteignant directement la vitesse de MelGAN [3].