Reconnaissance robuste de la parole audiovisuelle auto-supervisée

La reconnaissance automatique de la parole basée sur l'audio (ASR) se dégrade considérablement dans les environnements bruyants et est particulièrement vulnérable aux paroles parasites, car le modèle ne peut pas déterminer quel locuteur transcrire. Les systèmes de reconnaissance automatique de la parole audio-visuelle (AVSR) améliorent la robustesse en complétant le flux audio avec des informations visuelles invariantes au bruit, ce qui aide le modèle à se concentrer sur le locuteur souhaité. Cependant, les travaux précédents en AVSR se sont concentrés uniquement sur l'apprentissage supervisé ; ainsi, les progrès ont été freinés par la quantité de données étiquetées disponibles. Dans cette étude, nous présentons un cadre d'apprentissage auto-supervisé pour l'AVSR basé sur Audio-Visual HuBERT (AV-HuBERT), un modèle d'apprentissage des représentations audio-visuelles de pointe. Sur le plus grand ensemble de données de référence AVSR disponible, LRS3, notre approche surpassent les méthodes précédentes d'environ 50% (28,0% contre 14,1%) en utilisant moins de 10% des données étiquetées (433 heures contre 30 heures) en présence de bruits de babillement, tout en réduisant l'erreur relative du taux d'erreur de mots (WER) d'un modèle basé sur l'audio de plus de 75% (25,8% contre 5,8%) en moyenne.