HyperAIHyperAI
il y a 2 mois

Pont de Schrödinger pour l’amélioration générative de la parole

Ante Jukić; Roman Korostik; Jagadeesh Balam; Boris Ginsburg
Pont de Schrödinger pour l’amélioration générative de la parole
Résumé

Ce document propose un modèle de génération pour l'amélioration de la parole basé sur le pont de Schrödinger (SB). Le modèle proposé utilise un pont de Schrödinger traçable pour formuler un processus de données à données entre la distribution de la parole propre et la distribution de la parole bruitée observée. Le modèle est entraîné avec une perte de prédiction des données, visant à récupérer les coefficients complexes de la parole propre, et une perte auxiliaire dans le domaine temporel est utilisée pour améliorer l'entraînement du modèle. L'efficacité du modèle basé sur SB est évaluée dans deux tâches différentes d'amélioration de la parole : le débruitage vocal et le déréverbération vocale. Les résultats expérimentaux montrent que le modèle basé sur SB surpasses les modèles basés sur diffusion en termes de métriques de qualité vocale et de performance ASR, par exemple, en réduisant le taux d'erreur relatif des mots de 20 % pour le débruitage et de 6 % pour la déréverbération par rapport au meilleur modèle de référence. Le modèle proposé montre également une efficacité améliorée, atteignant une meilleure qualité que les modèles de référence pour le même nombre d'étapes d'échantillonnage et avec un coût computationnel réduit.