HyperAIHyperAI
il y a 17 jours

Une perte dans le domaine de la modulation pour une amélioration en temps réel du speech basée sur les réseaux de neurones

Tyler Vuong, Yangyang Xia, Richard M. Stern
Une perte dans le domaine de la modulation pour une amélioration en temps réel du speech basée sur les réseaux de neurones
Résumé

Nous décrivons une fonction de perte dans le domaine de la modulation pour les systèmes d’amélioration de parole basés sur l’apprentissage profond. Des champs réceptifs spectro-temporels (STRFs) ajustables ont été adaptés afin d’optimiser une tâche d’identification de locuteur. Ces STRFs appris ont ensuite été utilisés pour calculer un erreur quadratique moyenne pondérée (MSE) dans le domaine de la modulation, afin d’entraîner un système d’amélioration de parole. Des expériences ont montré qu’en ajoutant la perte MSE dans le domaine de la modulation à la perte MSE dans le domaine spectro-temporel, la prédiction objective de la qualité et de l’intelligibilité de la parole est significativement améliorée pour les systèmes d’amélioration en temps réel, sans engendrer de coût computationnel supplémentaire lors de l’inférence.