il y a 2 mois

Amélioration audiovisuelle de la parole indépendante du locuteur basée sur les points de repère faciaux dans des environnements à plusieurs interlocuteurs

Giovanni Morrone; Luca Pasa; Vadim Tikhanoff; Sonia Bergamaschi; Luciano Fadiga; Leonardo Badino

Résumé

Dans cet article, nous abordons le problème de l'amélioration de la parole d'un locuteur cible dans un scénario de type « cocktail party » lorsque des informations visuelles sur ce locuteur sont disponibles. Contrairement à la plupart des études précédentes, nous n'apprenons pas les caractéristiques visuelles sur des ensembles de données audiovisuels généralement petits, mais utilisons un détecteur de points de repère faciaux déjà disponible (formé sur un ensemble de données d'images distinct). Les points de repère sont utilisés par des modèles basés sur LSTM pour générer des masques temps-fréquence qui sont appliqués au spectrogramme du discours mixte acoustique. Les résultats montrent que : (i) les caractéristiques de mouvement des points de repère sont très efficaces pour cette tâche, (ii) tout comme dans les travaux antérieurs, la reconstruction du spectrogramme du locuteur cible médiatisée par le masquage est significativement plus précise que la reconstruction directe du spectrogramme, et (iii) les meilleurs masques dépendent à la fois des caractéristiques de mouvement des points de repère et du spectrogramme du discours mixte en entrée. Selon nos connaissances, nos modèles proposés sont les premiers modèles formés et évalués sur les ensembles de données GRID et TCD-TIMIT de taille limitée, qui atteignent une amélioration indépendante du locuteur dans un contexte multi-locuteurs.