il y a 2 mois

Apprentissage de la représentation audiovisuelle de la parole par prédiction de cluster multimodal masqué

Shi, Bowen ; Hsu, Wei-Ning ; Lakhotia, Kushal ; Mohamed, Abdelrahman

Résumé

Les enregistrements vidéo de la parole contiennent des informations audio et visuelles corrélées, offrant un signal fort pour l'apprentissage de représentations de la parole à partir des mouvements des lèvres du locuteur et du son produit. Nous présentons Audio-Visual Hidden Unit BERT (AV-HuBERT), un cadre d'apprentissage de représentations auto-supervisé pour la parole audio-visuelle, qui masque les entrées vidéo multicanal et prédit des unités cachées multimodales découvertes automatiquement et affinées itérativement.AV-HuBERT apprend une puissante représentation audio-visuelle de la parole, bénéficiant à la fois à la lecture labiale et à la reconnaissance automatique de la parole. Sur le plus grand benchmark public de lecture labiale LRS3 (433 heures), AV-HuBERT atteint un taux d'erreur sur les mots (WER) de 32,5% avec seulement 30 heures de données étiquetées, surpassant l'approche précédente de pointe (33,6%) formée avec mille fois plus de données vidéo transcrites (31 000 heures). Le WER de lecture labiale est encore réduit à 26,9% lorsque l'on utilise toutes les 433 heures de données étiquetées provenant de LRS3 et qu'on combine cela avec l'auto-entraînement. L'utilisation de notre représentation audio-visuelle sur le même benchmark pour la reconnaissance automatique de la parole basée uniquement sur l'audio conduit à une réduction relative du WER de 40% par rapport aux performances actuelles de pointe (1,3% contre 2,3%).Notre code et nos modèles sont disponibles sur https://github.com/facebookresearch/av_hubert.