Entendre les lèvres : Améliorer la lecture des lèvres en distillant des systèmes de reconnaissance vocale

La lecture des lèvres a connu un développement sans précédent ces dernières années, grâce à l’apprentissage profond et à la disponibilité de grands jeux de données. Malgré les résultats encourageants obtenus, la performance de la lecture des lèvres reste, malheureusement, inférieure à celle de la reconnaissance vocale, en raison de la nature ambiguë des mouvements labiaux, qui rend difficile l’extraction de caractéristiques discriminantes à partir des vidéos de mouvements des lèvres. Dans cet article, nous proposons une nouvelle méthode, appelée Lip by Speech (LIBS), dont l’objectif est de renforcer la lecture des lèvres en apprenant à partir de modèles de reconnaissance vocale. La justification de notre approche repose sur le fait que les caractéristiques extraites par les systèmes de reconnaissance vocale peuvent fournir des indices complémentaires et discriminants, difficiles à obtenir à partir des mouvements subtils des lèvres, et contribuer ainsi à une meilleure formation des modèles de lecture des lèvres. Cela est réalisé spécifiquement par la distillation de connaissances à plusieurs granularités provenant des modèles de reconnaissance vocale vers les modèles de lecture des lèvres. Pour réaliser cette distillation de connaissances intermodale, nous utilisons une stratégie d’alignement efficace afin de gérer les longueurs inégales des séquences audio et vidéo, ainsi qu’une stratégie innovante de filtrage pour affiner les prédictions du système de reconnaissance vocale. La méthode proposée atteint un nouveau record sur les jeux de données CMLR et LRS2, surpassant la méthode de référence de 7,66 % et 2,75 % en taux d’erreur par caractère, respectivement.