LCANet : Lecture des lèvres en boucle fermée avec CTC à attention en cascade

La lecture labiale par machine est un type particulier de reconnaissance automatique de la parole (ASR) qui transcrit la parole humaine en interprétant visuellement les mouvements des régions faciales associées, notamment les lèvres, le visage et la langue. Récemment, les méthodes de lecture labiale basées sur les réseaux neuronaux profonds ont montré un grand potentiel et surpassent déjà, sur certains jeux de données de référence, la précision des lecteurs labiaux humains expérimentés. Toutefois, la lecture labiale reste loin d’être résolue, et les méthodes existantes présentent encore des taux d’erreur élevés sur des données réelles (« wild data »). Dans ce papier, nous proposons LCANet, un système de lecture labiale basé sur un réseau neuronal profond end-to-end. LCANet encode les trames vidéo d’entrée à l’aide d’un réseau neuronal convolutif 3D empilé (CNN), d’un réseau à voies (highway network) et d’un réseau récurrent à mémoire à grille bidirectionnel (bidirectional GRU). L’encodeur capte efficacement à la fois les informations spatio-temporelles à court terme et à long terme. Plus important encore, LCANet intègre un décodeur à attente en cascade combinant CTC (Connectionist Temporal Classification) et une attention, permettant de corriger partiellement le défaut lié à l’hypothèse d’indépendance conditionnelle inhérente à CTC au sein des couches cachées du réseau, ce qui se traduit par une amélioration notable des performances ainsi qu’une convergence plus rapide. Les résultats expérimentaux montrent que le système proposé atteint un taux d’erreur de caractères (CER) de 1,3 % et un taux d’erreur de mot (WER) de 3,0 % sur la base de données GRID, représentant une amélioration de 12,3 % par rapport aux méthodes de l’état de l’art.