Apprentissage de la représentation audiovisuelle de la parole par prédiction de cluster multimodal masqué

Les enregistrements vidéo de la parole contiennent des informations audio et visuelles corrélées, offrant un signal fort pour l'apprentissage de représentations de la parole à partir des mouvements des lèvres du locuteur et du son produit. Nous présentons Audio-Visual Hidden Unit BERT (AV-HuBERT), un cadre d'apprentissage de représentations auto-supervisé pour la parole audio-visuelle, qui masque les entrées vidéo multicanal et prédit des unités cachées multimodales découvertes automatiquement et affinées itérativement.AV-HuBERT apprend une puissante représentation audio-visuelle de la parole, bénéficiant à la fois à la lecture labiale et à la reconnaissance automatique de la parole. Sur le plus grand benchmark public de lecture labiale LRS3 (433 heures), AV-HuBERT atteint un taux d'erreur sur les mots (WER) de 32,5% avec seulement 30 heures de données étiquetées, surpassant l'approche précédente de pointe (33,6%) formée avec mille fois plus de données vidéo transcrites (31 000 heures). Le WER de lecture labiale est encore réduit à 26,9% lorsque l'on utilise toutes les 433 heures de données étiquetées provenant de LRS3 et qu'on combine cela avec l'auto-entraînement. L'utilisation de notre représentation audio-visuelle sur le même benchmark pour la reconnaissance automatique de la parole basée uniquement sur l'audio conduit à une réduction relative du WER de 40% par rapport aux performances actuelles de pointe (1,3% contre 2,3%).Notre code et nos modèles sont disponibles sur https://github.com/facebookresearch/av_hubert.