Reconnaissance de la parole audiovisuelle de bout en bout avec des conformers

Dans cette étude, nous présentons un modèle hybride CTC/Attention basé sur un ResNet-18 et un transformateur augmenté de convolution (Conformer), qui peut être entraîné de manière end-to-end. Plus précisément, les encodeurs audio et visuel apprennent à extraire des caractéristiques directement à partir des pixels bruts et des formes d'onde audio, respectivement, avant de les transmettre aux conformers. La fusion est ensuite réalisée par l'intermédiaire d'un perceptron multicouche (MLP). Le modèle apprend à reconnaître les caractères en utilisant une combinaison de CTC et d'un mécanisme d'attention. Nous démontrons que l'entraînement end-to-end, au lieu d'utiliser des caractéristiques visuelles pré-calculées comme c'est couramment le cas dans la littérature, l'utilisation d'un conformer au lieu d'un réseau récurrent, ainsi que l'utilisation d'un modèle de langage basé sur un transformeur, améliorent considérablement les performances de notre modèle. Nous présentons des résultats sur les plus grands ensembles de données publiquement disponibles pour la reconnaissance de la parole au niveau des phrases, Lip Reading Sentences 2 (LRS2) et Lip Reading Sentences 3 (LRS3), respectivement. Les résultats montrent que nos modèles proposés améliorent largement l'état de l'art dans les expériences audio seule, visuelle seule et audio-visuelle.