HyperAIHyperAI

Command Palette

Search for a command to run...

Pont de Schrödinger pour l’amélioration générative de la parole

Ante Jukić Roman Korostik Jagadeesh Balam Boris Ginsburg

Résumé

Ce document propose un modèle de génération pour l'amélioration de la parole basé sur le pont de Schrödinger (SB). Le modèle proposé utilise un pont de Schrödinger traçable pour formuler un processus de données à données entre la distribution de la parole propre et la distribution de la parole bruitée observée. Le modèle est entraîné avec une perte de prédiction des données, visant à récupérer les coefficients complexes de la parole propre, et une perte auxiliaire dans le domaine temporel est utilisée pour améliorer l'entraînement du modèle. L'efficacité du modèle basé sur SB est évaluée dans deux tâches différentes d'amélioration de la parole : le débruitage vocal et le déréverbération vocale. Les résultats expérimentaux montrent que le modèle basé sur SB surpasses les modèles basés sur diffusion en termes de métriques de qualité vocale et de performance ASR, par exemple, en réduisant le taux d'erreur relatif des mots de 20 % pour le débruitage et de 6 % pour la déréverbération par rapport au meilleur modèle de référence. Le modèle proposé montre également une efficacité améliorée, atteignant une meilleure qualité que les modèles de référence pour le même nombre d'étapes d'échantillonnage et avec un coût computationnel réduit.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp