HyperAIHyperAI

Command Palette

Search for a command to run...

Auto-AVSR : Reconnaissance Audio-Visuelle de la Parole avec Étiquettes Automatiques

Ma Pingchuan ; Haliassos Alexandros ; Fernandez-Lopez Adriana ; Chen Honglie ; Petridis Stavros ; Pantic Maja

Résumé

La reconnaissance audiovisuelle de la parole a suscité beaucoup d'attention en raison de sa robustesse face au bruit acoustique. Récemment, les performances de la reconnaissance automatique, visuelle et audiovisuelle de la parole (ASR, VSR et AV-ASR, respectivement) ont été considérablement améliorées, principalement grâce à l'utilisation de modèles plus importants et d'ensembles d'entraînement plus volumineux. Cependant, l'étiquetage précis des ensembles de données est une tâche longue et coûteuse. Par conséquent, dans cette étude, nous examinons l'utilisation de transcriptions générées automatiquement à partir d'ensembles de données non étiquetés pour augmenter la taille des ensembles d'entraînement. À cet effet, nous utilisons des modèles ASR pré-entraînés publiquement disponibles pour transcrire automatiquement des ensembles de données non étiquetés tels que AVSpeech et VoxCeleb2. Ensuite, nous entraînons des modèles ASR, VSR et AV-ASR sur l'ensemble d'entraînement augmenté, qui comprend les ensembles de données LRS2 et LRS3 ainsi que les données supplémentaires transcrrites automatiquement. Nous démontrons que l'augmentation de la taille des ensembles d'entraînement, une tendance récente dans la littérature, permet une réduction du taux d'erreur de reconnaissance (WER) malgré l'utilisation de transcriptions bruyantes. Le modèle proposé atteint une nouvelle performance record dans le domaine de l'AV-ASR sur les ensembles de données LRS2 et LRS3. En particulier, il atteint un WER de 0,9 % sur LRS3, soit une amélioration relative de 30 % par rapport à l'approche actuellement reconnue comme étant la meilleure (state-of-the-art), et surpassant les méthodes formées sur des ensembles de données non publiquement disponibles avec 26 fois plus de données d'entraînement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp