Les conformers sont tout ce dont vous avez besoin pour la reconnaissance visuelle de la parole.

Les modèles de reconnaissance visuelle de la parole extraient des caractéristiques visuelles de manière hiérarchique. Au niveau inférieur, il existe une interface visuelle frontale avec un champ récepteur temporel limité qui traite les pixels bruts représentant les lèvres ou les visages. Au niveau supérieur, il y a un encodeur qui porte attention aux plongements (embeddings) produits par l'interface frontale sur un champ récepteur temporel étendu. Les travaux précédents se sont concentrés sur l'amélioration de l'interface visuelle frontale du modèle afin d'extraire des caractéristiques plus utiles pour la reconnaissance de la parole. De manière surprenante, notre travail montre que des interfaces visuelles frontales complexes ne sont pas nécessaires. Au lieu d'allouer des ressources à une interface frontale sophistiquée, nous constatons qu'une interface frontale linéaire associée à un encodeur Conformer plus grand permet d'obtenir une latence plus faible, une utilisation mémoire plus efficace et une amélioration des performances en termes de taux d'erreur de reconnaissance (WER). Nous atteignons un nouveau niveau d'excellence avec un WER de 12,8 % pour la reconnaissance visuelle de la parole sur le jeu de données TED LRS3, ce qui égale presque les performances des modèles basés uniquement sur l'audio d'il y a quatre ans.