HyperAIHyperAI
il y a 2 mois

ReVISE : Synthèse vocale autonome avec entrée visuelle pour l’amélioration universelle et généralisée de la parole

Wei-Ning Hsu; Tal Remez; Bowen Shi; Jacob Donley; Yossi Adi
ReVISE : Synthèse vocale autonome avec entrée visuelle pour l’amélioration universelle et généralisée de la parole
Résumé

Les travaux antérieurs visant à améliorer la qualité de la parole grâce à l'apport visuel étudient généralement chaque type de distorsion auditive séparément (par exemple, séparation, reconstruction, vidéo-à-parole) et présentent des algorithmes spécifiques. Cet article propose d'unifier ces sujets et d'étudier l'Amélioration Généralisée de la Parole, où l'objectif n'est pas de reconstruire le signal propre de référence exact, mais plutôt de se concentrer sur l'amélioration de certains aspects de la parole. En particulier, cet article traite de l'intelligibilité, de la qualité et de la synchronisation vidéo. Nous formulons le problème comme une résynthèse audiovisuelle de la parole, qui se compose de deux étapes : une reconnaissance pseudo-audiovisuelle de la parole (P-AVSR) et une synthèse pseudo-texte-à-parole (P-TTS). Le P-AVSR et le P-TTS sont connectés par des unités discrètes dérivées d'un modèle auto-supervisé de parole. De plus, nous utilisons un modèle audiovisuel auto-supervisé pour initialiser le P-AVSR. Le modèle proposé est appelé ReVISE. ReVISE est le premier modèle haute qualité pour la synthèse vidéo-à-parole dans des conditions réelles et obtient des performances supérieures sur toutes les tâches d'amélioration audiovisuelle du LRS3 avec un seul modèle. Pour démontrer son applicabilité dans le monde réel, ReVISE est également évalué sur EasyCom, un banc d'essai audiovisuel collecté sous des conditions acoustiques difficiles avec seulement 1,6 heure de données d'entraînement. De manière similaire, ReVISE réduit considérablement le bruit et améliore la qualité. Page du projet : https://wnhsu.github.io/ReVISE.