HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance robuste de la parole audiovisuelle auto-supervisée

Shi Bowen ; Hsu Wei-Ning ; Mohamed Abdelrahman

Résumé

La reconnaissance automatique de la parole basée sur l'audio (ASR) se dégrade considérablement dans les environnements bruyants et est particulièrement vulnérable aux paroles parasites, car le modèle ne peut pas déterminer quel locuteur transcrire. Les systèmes de reconnaissance automatique de la parole audio-visuelle (AVSR) améliorent la robustesse en complétant le flux audio avec des informations visuelles invariantes au bruit, ce qui aide le modèle à se concentrer sur le locuteur souhaité. Cependant, les travaux précédents en AVSR se sont concentrés uniquement sur l'apprentissage supervisé ; ainsi, les progrès ont été freinés par la quantité de données étiquetées disponibles. Dans cette étude, nous présentons un cadre d'apprentissage auto-supervisé pour l'AVSR basé sur Audio-Visual HuBERT (AV-HuBERT), un modèle d'apprentissage des représentations audio-visuelles de pointe. Sur le plus grand ensemble de données de référence AVSR disponible, LRS3, notre approche surpassent les méthodes précédentes d'environ 50% (28,0% contre 14,1%) en utilisant moins de 10% des données étiquetées (433 heures contre 30 heures) en présence de bruits de babillement, tout en réduisant l'erreur relative du taux d'erreur de mots (WER) d'un modèle basé sur l'audio de plus de 75% (25,8% contre 5,8%) en moyenne.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp