HyperAIHyperAI

Command Palette

Search for a command to run...

SE-MelGAN -- Amélioration Rapide de la Parole Indépendante du Locuteur

Luka Chkhetiani Levan Bejanidze

Résumé

Les avancées récentes dans le domaine des réseaux antagonistes génératifs (GAN) appliqués à la synthèse vocale [3],[2] ont démontré qu’il est possible d’entraîner des GAN [8] de manière fiable afin de générer des ondes sonores de haute qualité à partir de mélo-spectrogrammes. Nous proposons qu’il est possible de transférer la robustesse de MelGAN [3] dans l’apprentissage des caractéristiques vocales vers le domaine du renforcement vocal et de la réduction du bruit, sans nécessiter de modification du modèle. La méthode proposée s’applique de manière généralisée à des jeux de données vocales multi-parleurs et parvient à gérer efficacement des bruits de fond inconnus lors de l’inférence. En outre, nous montrons qu’en augmentant la taille du batch pour cette approche particulière, non seulement les performances vocales s’améliorent, mais aussi la généralisation sur les jeux de données multi-parleurs devient plus aisée, tout en accélérant la convergence. Enfin, cette méthode surpasser les approches GAN précédentes de pointe en renforcement vocal, telles que SEGAN [5], sur deux dimensions : 1. la qualité ; 2. la vitesse. La méthode proposée fonctionne à plus de 100 fois la vitesse en temps réel sur GPU, et à plus de 2 fois la vitesse en temps réel sur CPU, sans aucune optimisation matérielle, atteignant directement la vitesse de MelGAN [3].


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SE-MelGAN -- Amélioration Rapide de la Parole Indépendante du Locuteur | Articles | HyperAI