HyperAIHyperAI
il y a 11 jours

Vocoder neuronal universel pour locuteur inconnu et conditions d'enregistrement inconnues : WaveRNN conditionnée par locuteur

Dipjyoti Paul, Yannis Pantazis, Yannis Stylianou
Vocoder neuronal universel pour locuteur inconnu et conditions d'enregistrement inconnues : WaveRNN conditionnée par locuteur
Résumé

Les avancées récentes en apprentissage profond ont permis d’atteindre des performances au niveau humain dans la synthèse vocale à locuteur unique. Toutefois, des limites persistent en matière de qualité vocale lors de la généralisation de ces systèmes à des modèles multi-locuteurs, en particulier pour des locuteurs inconnus et des conditions d’enregistrement inédites. Par exemple, les vocodeurs neuronaux classiques sont ajustés au locuteur d’entraînement et présentent de faibles capacités de généralisation face à des locuteurs inconnus. Dans ce travail, nous proposons une variante de WaveRNN, appelée WaveRNN conditionnel au locuteur (SC-WaveRNN). Notre objectif est de développer un vocodeur universel efficace, même pour des locuteurs et des conditions d’enregistrement inédits. Contrairement à WaveRNN standard, SC-WaveRNN exploite des informations supplémentaires sous la forme d’embeddings de locuteur. En s’appuyant sur des données publiques pour l’entraînement, SC-WaveRNN obtient des performances nettement supérieures à celles du modèle de référence WaveRNN, sur des critères subjectifs et objectifs. En termes de score MOS, SC-WaveRNN améliore les résultats de près de 23 % pour des locuteurs et conditions d’enregistrement connus, et jusqu’à 95 % pour des locuteurs et conditions inconnus. Enfin, nous étendons notre travail en mettant en œuvre une synthèse vocale texte-à-parole multi-locuteur similaire à une adaptation de locuteur « zero-shot ». En termes de performance, notre système est préféré au système TTS de référence dans 60 % des cas contre 15,5 % pour les locuteurs connus, et dans 60,9 % des cas contre 32,6 % pour les locuteurs inconnus.

Vocoder neuronal universel pour locuteur inconnu et conditions d'enregistrement inconnues : WaveRNN conditionnée par locuteur | Articles de recherche récents | HyperAI