il y a 2 mois

Auto-AVSR : Reconnaissance Audio-Visuelle de la Parole avec Étiquettes Automatiques

Ma, Pingchuan ; Haliassos, Alexandros ; Fernandez-Lopez, Adriana ; Chen, Honglie ; Petridis, Stavros ; Pantic, Maja

Résumé

La reconnaissance audiovisuelle de la parole a suscité beaucoup d'attention en raison de sa robustesse face au bruit acoustique. Récemment, les performances de la reconnaissance automatique, visuelle et audiovisuelle de la parole (ASR, VSR et AV-ASR, respectivement) ont été considérablement améliorées, principalement grâce à l'utilisation de modèles plus importants et d'ensembles d'entraînement plus volumineux. Cependant, l'étiquetage précis des ensembles de données est une tâche longue et coûteuse. Par conséquent, dans cette étude, nous examinons l'utilisation de transcriptions générées automatiquement à partir d'ensembles de données non étiquetés pour augmenter la taille des ensembles d'entraînement. À cet effet, nous utilisons des modèles ASR pré-entraînés publiquement disponibles pour transcrire automatiquement des ensembles de données non étiquetés tels que AVSpeech et VoxCeleb2. Ensuite, nous entraînons des modèles ASR, VSR et AV-ASR sur l'ensemble d'entraînement augmenté, qui comprend les ensembles de données LRS2 et LRS3 ainsi que les données supplémentaires transcrrites automatiquement. Nous démontrons que l'augmentation de la taille des ensembles d'entraînement, une tendance récente dans la littérature, permet une réduction du taux d'erreur de reconnaissance (WER) malgré l'utilisation de transcriptions bruyantes. Le modèle proposé atteint une nouvelle performance record dans le domaine de l'AV-ASR sur les ensembles de données LRS2 et LRS3. En particulier, il atteint un WER de 0,9 % sur LRS3, soit une amélioration relative de 30 % par rapport à l'approche actuellement reconnue comme étant la meilleure (state-of-the-art), et surpassant les méthodes formées sur des ensembles de données non publiquement disponibles avec 26 fois plus de données d'entraînement.