Réseau à deux flux basé sur le flux de déformation pour la lecture des lèvres

La lecture des lèvres consiste à reconnaître le contenu de la parole en analysant les mouvements observés dans la région des lèvres lorsqu’une personne parle. En observant la continuité entre les cadres adjacents pendant le processus de parole, ainsi que la cohérence des motifs de mouvement entre différents locuteurs lorsqu’ils prononcent la même phonème, nous modélisons les mouvements des lèvres pendant la parole comme une séquence de déformations apparentes dans cette région. Plus précisément, nous introduisons un réseau de flux de déformation (Deformation Flow Network, DFN) afin d’apprendre le flux de déformation entre cadres consécutifs, capturant directement les informations de mouvement à l’intérieur de la région des lèvres. Ce flux de déformation appris est ensuite combiné aux images en niveaux de gris d’origine au sein d’un réseau à deux voies pour réaliser la lecture des lèvres. Contrairement aux réseaux à deux voies précédents, nous permettons aux deux voies d’apprendre mutuellement en introduisant une perte de distillation de connaissances bidirectionnelle, permettant ainsi une formation conjointe des deux branches. Grâce aux indices complémentaires fournis par les deux branches, le réseau à deux voies montre une amélioration significative par rapport à l’utilisation d’une seule branche. Une évaluation expérimentale approfondie est présentée sur deux grands jeux de données de lecture des lèvres, accompagnée d’une analyse détaillée. Les résultats confirment notre motivation initiale et démontrent que notre méthode atteint des performances de pointe ou comparables sur ces deux jeux de données exigeants.