HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de la représentation audiovisuelle de la parole par prédiction de cluster multimodal masqué

Shi Bowen ; Hsu Wei-Ning ; Lakhotia Kushal ; Mohamed Abdelrahman

Résumé

Les enregistrements vidéo de la parole contiennent des informations audio et visuelles corrélées, offrant un signal fort pour l'apprentissage de représentations de la parole à partir des mouvements des lèvres du locuteur et du son produit. Nous présentons Audio-Visual Hidden Unit BERT (AV-HuBERT), un cadre d'apprentissage de représentations auto-supervisé pour la parole audio-visuelle, qui masque les entrées vidéo multicanal et prédit des unités cachées multimodales découvertes automatiquement et affinées itérativement.AV-HuBERT apprend une puissante représentation audio-visuelle de la parole, bénéficiant à la fois à la lecture labiale et à la reconnaissance automatique de la parole. Sur le plus grand benchmark public de lecture labiale LRS3 (433 heures), AV-HuBERT atteint un taux d'erreur sur les mots (WER) de 32,5% avec seulement 30 heures de données étiquetées, surpassant l'approche précédente de pointe (33,6%) formée avec mille fois plus de données vidéo transcrites (31 000 heures). Le WER de lecture labiale est encore réduit à 26,9% lorsque l'on utilise toutes les 433 heures de données étiquetées provenant de LRS3 et qu'on combine cela avec l'auto-entraînement. L'utilisation de notre représentation audio-visuelle sur le même benchmark pour la reconnaissance automatique de la parole basée uniquement sur l'audio conduit à une réduction relative du WER de 40% par rapport aux performances actuelles de pointe (1,3% contre 2,3%).Notre code et nos modèles sont disponibles sur https://github.com/facebookresearch/av_hubert.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp