Vers une lecture labiale pratique grâce à des modèles distillés et efficaces

La lecture des lèvres a connu de grands progrès grâce à la renaissance des réseaux neuronaux. Les travaux récents se sont concentrés sur des aspects tels que l'amélioration des performances par la recherche d'une architecture optimale ou le renforcement de la généralisation. Toutefois, un écart significatif persiste entre les méthodologies actuelles et les exigences nécessaires à un déploiement efficace de la lecture des lèvres dans des scénarios réels. Dans ce travail, nous proposons une série d'innovations qui réduisent considérablement cet écart : tout d'abord, nous améliorons de manière marquée les performances de l'état de l'art sur les jeux de données LRW et LRW-1000, atteignant respectivement 88,5 % et 46,6 % grâce à une distillation auto-supervisée. Ensuite, nous introduisons une série de modifications architecturales, notamment une nouvelle tête basée sur un réseau convolutif temporel séparable en profondeur (DS-TCN), qui réduit le coût computationnel à une fraction seulement du modèle original (déjà très efficace). Troisièmement, nous démontrons que la distillation de connaissances constitue un outil extrêmement efficace pour restaurer les performances des modèles légers. Cela permet d’obtenir une gamme de modèles offrant différents compromis entre précision et efficacité. Toutefois, nos modèles légers les plus prometteurs atteignent les performances de l’état de l’art actuel tout en réduisant respectivement de 8,2 fois le coût computationnel et de 3,9 fois le nombre de paramètres, ce que nous espérons permettra le déploiement de modèles de lecture des lèvres dans des applications pratiques.